lxml结合xpath注意事项

本文介绍了使用Python的lxml库结合XPath解析HTML的一些关键点:1) 使用Element.xpath方法执行XPath选择;2) XPath函数返回值总是列表;3) 获取标签属性如@a/@href;4) 通过.text()获取文本内容;5) 在当前元素下查找子孙节点,需在//前加点。
摘要由CSDN通过智能技术生成

1.使用Xpath语法,应该使用Element.xpath方法,来执行xpath选择,示例代码如下:
trs = html.xpath("//tr[position()>2]")
xpath函数返回的永远是一个列表

2.获取某个标签的属性:
href = html.xpath("//a/@href")

3.获取文本 , 通过xpath下的text()函数:
address = tr.xpath("./td[4]/text()")[0]

4.在某个标签下使用xpath函数 , 获取其子孙函数, 应该在//的前面加一个点 ,代表在当前元素下获取address = tr.xpath("./td[4]/text()")[0]

 

#encoding: utf-8

from lxml import  etree

# 1.获取所有tr标签
# 2.获取第2个tr标签
# 3.获取所有class等于rowA的tr标签
# 4.获取所有a标签的href属性
# 5.获取所有的职位信息(纯文本)

parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("huilv.html",parser=parser)

# 1.获取所有tr标签
#//tr
# positions = html.xpath("//positionName")
# for pos in positions:
#     print(pos)

#xpath函数返回的是一个列表
# trs = html.xpath("//tr")
# for tr in trs:
#     p
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值