Xpath(python)

xpath常用规则

表达式描述
nodename选取此节点的所有子节点
/从当前节点选取直接子节点
//从当前节点选取子孙节点
.选取当前节点
…或者parent::选取当前节点的父节点
@选取属性

etree模块(对html文档规范化补缺)

etree模块可以自动修正html文本,看下面实例代码

from lxml import etree
text = '  <div class="nav_com">
          <ul>
<li class="active"><a href="/">推荐</a></li>
<li class=""><a href="/nav/watchers">关注</a></li>
<li class=""><a href="/nav/career">程序人生</a></li>
<li class=""><a href="/nav/python">Python</a></li>   '
html = etree.HTML(text)
result = etree.tostring(html)#tostring输出字节流
print(result.decode('utf-8'))#解码后打印

也可以直接读取文件:

from lxml import etree

html = etree.parse('1.html', etree.HTMLParser())
result = etree.tostring(html)#tostring输出字节流
print(result.decode('utf-8'))#解码后打印

xpath与BeautifulSoup的text()函数差别

xpath中的text()选取两种方法

  • 一定要具体到标签中选择
  • 选取子孙节点//再选取text(),这样的弊端就是得到的数据可能不整洁,带有换行符\n

BeautifulSoup中的text()自动选取所有子孙节点

属性多值匹配

contains函数
//li[contains(@class, "li")]/a/@href

多属性匹配

//li[contains(@class, "li") and @name='item'] /a/@href

按序选择

//li[1]/a
//li[last()]/a
//li[last()-2]/a
//li[position()<3]/a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值