lxml结合xpath注意事项

最新推荐文章于 2023-01-13 00:15:12 发布

jason3586596

最新推荐文章于 2023-01-13 00:15:12 发布

阅读量229

点赞数

分类专栏： Python学习爬虫文章标签： python xpath html

本文链接：https://blog.csdn.net/jason3586596/article/details/107444319

版权

本文介绍了使用Python的lxml库结合XPath解析HTML的一些关键点：1) 使用Element.xpath方法执行XPath选择；2) XPath函数返回值总是列表；3) 获取标签属性如@a/@href；4) 通过.text()获取文本内容；5) 在当前元素下查找子孙节点，需在//前加点。

摘要由CSDN通过智能技术生成

1.使用Xpath语法，应该使用Element.xpath方法，来执行xpath选择，示例代码如下：
trs = html.xpath("//tr[position()>2]")
xpath函数返回的永远是一个列表

2.获取某个标签的属性：
href = html.xpath("//a/@href")

3.获取文本，通过xpath下的text（）函数：
address = tr.xpath("./td[4]/text()")[0]

4.在某个标签下使用xpath函数 , 获取其子孙函数, 应该在//的前面加一个点 ,代表在当前元素下获取address = tr.xpath("./td[4]/text()")[0]

#encoding: utf-8

from lxml import  etree

# 1.获取所有tr标签
# 2.获取第2个tr标签
# 3.获取所有class等于rowA的tr标签
# 4.获取所有a标签的href属性
# 5.获取所有的职位信息（纯文本）

parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("huilv.html",parser=parser)

# 1.获取所有tr标签
#//tr
# positions = html.xpath("//positionName")
# for pos in positions:
#     print(pos)

#xpath函数返回的是一个列表
# trs = html.xpath("//tr")
# for tr in trs:
#     p

最低0.47元/天解锁文章

jason3586596

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lxml结合xpath注意事项

1.使用Xpath语法，应该使用Element.xpath方法，来执行xpath选择，示例代码如下：trs = html.xpath("//tr[position()>2]")xpath函数返回的永远是一个列表2.获取某个标签的属性：href = html.xpath("//a/@href")3.获取文本，通过xpath下的text（）函数：address = tr.xpath("./td[4]/text()")[0]4.在某个标签下使用xpath函数 , 获取其子孙函数, 应
复制链接

扫一扫