爬取网站时,调用from lxml import etree
库中etree.HTML()可以构造一个符合xpath语法的html文本。通过xpath解析文本,想要定位到目标参数。
在浏览器中复制Xpath,或者full Xpath,在浏览器中ctrl+f,可以正常找到,但是放到代码里就返回None
import requests
from lxml import etree
thumbnail = requests.get(url, headers=headers, data=payload) # 缩略图
print(thumbnail.text) # 爬取内容正确,可以看到目标元素
print(thumbnail.status_code)
html = etree.HTML(thumbnail.text)
div_list = html.xpath('//*[@id="mmComponent_images_1"]/ul[1]/li[1]/div/div[1]/a')
# div_list = html.xpath('/html/body/div[3]/div[5]/div[2]/div[1]/ul[1]/li[1]/div/div[1]/a')
for div in div_list:
print(div.text)
不论是用谷歌浏览器copy Xpath 还是 copy full xpath 都返回为None
有两种失败的原因
1.谷歌浏览器再html排列时会自动加入一些/table/tbody,但是代码爬取时没有这些,就会导致找不到
(5条消息) xpath定位元素返回列表为空_菜鸟上路_lbz的博客-CSDN博客https://blog.csdn.net/qq_44198436/article/details/104077558
这种情况可以用相对路径copy Xpath可以解决
2.真正的内容已经找到,但是用tree.text后就会将返回值<Element a at 0x149ab151888>解析成None
只需调用 div.text、div.tag、div.attrib不同的解析etree方法即可
thumbnail = requests.get(url, headers=headers, data=payload) # 缩略
print(thumbnail.status_code)
html = etree.HTML(thumbnail.text)
div_list = html.xpath('//*[@id="mmComponent_images_1"]/ul[1]/li[1]/div/div[1]/a')
for div in div_list:
print(div.text)
print(div.tag)
print(div.attrib)