xpath定位元素返回列表为空

最新推荐文章于 2024-06-29 11:25:42 发布

菜鸟上路_lbz

最新推荐文章于 2024-06-29 11:25:42 发布

阅读量2.7w

点赞数 13

分类专栏：喜闻乐见文章标签： xpath python

本文链接：https://blog.csdn.net/qq_44198436/article/details/104077558

版权

喜闻乐见专栏收录该内容

23 篇文章 1 订阅

订阅专栏

在爬取一些网站的时候，结合from lxml import etree库中etree.HTML()可以构造一个符合xpath语法的html文本，为了方便，我们可以F12-copy xpath获取该元素在网页中的xpath语法，但是其复制的为绝对路径，在某些时候是无法定位出元素的。

HTML（text， parser = None， base_url = None）
从字符串常量解析HTML文档。返回根节点（或解析器目标返回的结果）。此函数可用于在Python代码中嵌入“ HTML文字”。
https://lxml.de/api/lxml.etree-module.html#HTML

以爬取研招网院校库(https://yz.chsi.com.cn/sch/)为例子
1:使用copy xpath方法
在这里插入图片描述
这是xpath(绝对路径):

 /html/body/div[2]/div[3]/div[3]/table/tbody/tr[1]/td[1]/a/text()

import requests
from lxml import etree

url='https://yz.chsi.com.cn/sch/'
res=requests.get(url).text
if len(res)>100:#是否解析出text
    print('解析成功')
dom=etree.HTML(res)
text=dom.xpath('/html/body/div[2]/div[3]/div[3]/table/tbody/tr[1]/td[1]/a/text()')
print(text)

在这里插入图片描述
是一个空列表，但在xpath helper中可以解析出北京大学，说明xpath是对的。

2：使用相对路径：
在这里插入图片描述
xpath语法[需要手写]：

//*[@class="yxk-table"]/table/tbody/tr[1]/td[1]/a/text()

import requests
from lxml import etree

url='https://yz.chsi.com.cn/sch/'
res=requests.get(url).text
if len(res)>100:#是否解析出text
    print('解析成功')
dom=etree.HTML(res)
text=dom.xpath('//*[@class="yxk-table"]/table/tbody/tr[1]/td[1]/a/text()')
print(text)