Xpath 定位元素，获取text（）返回为None

最新推荐文章于 2023-09-25 16:37:41 发布

lelelogaoe

最新推荐文章于 2023-09-25 16:37:41 发布

阅读量2.5k

点赞数 2

文章标签： javascript python 爬虫 html

本文链接：https://blog.csdn.net/lelelogaoe/article/details/127556749

版权

爬取网站时，调用from lxml import etree库中etree.HTML()可以构造一个符合xpath语法的html文本。通过xpath解析文本，想要定位到目标参数。

在浏览器中复制Xpath，或者full Xpath，在浏览器中ctrl+f，可以正常找到，但是放到代码里就返回None

import requests
from lxml import etree

thumbnail = requests.get(url, headers=headers, data=payload)  # 缩略图
print(thumbnail.text)  # 爬取内容正确，可以看到目标元素
print(thumbnail.status_code)
html = etree.HTML(thumbnail.text)
div_list = html.xpath('//*[@id="mmComponent_images_1"]/ul[1]/li[1]/div/div[1]/a')
# div_list = html.xpath('/html/body/div[3]/div[5]/div[2]/div[1]/ul[1]/li[1]/div/div[1]/a')
for div in div_list:
    print(div.text)

不论是用谷歌浏览器copy Xpath 还是 copy full xpath 都返回为None

有两种失败的原因

1.谷歌浏览器再html排列时会自动加入一些/table/tbody，但是代码爬取时没有这些，就会导致找不到

(5条消息) xpath定位元素返回列表为空_菜鸟上路_lbz的博客-CSDN博客 https://blog.csdn.net/qq_44198436/article/details/104077558

这种情况可以用相对路径copy Xpath可以解决

2.真正的内容已经找到，但是用tree.text后就会将返回值<Element a at 0x149ab151888>解析成None

只需调用 div.text、div.tag、div.attrib不同的解析etree方法即可

    thumbnail = requests.get(url, headers=headers, data=payload)  # 缩略
    print(thumbnail.status_code)
    html = etree.HTML(thumbnail.text)
    div_list = html.xpath('//*[@id="mmComponent_images_1"]/ul[1]/li[1]/div/div[1]/a')
    for div in div_list:

        print(div.text)
        print(div.tag)
        print(div.attrib)