python爬虫xpath非常实用的知识点

在Python爬虫中,XPath是高效的数据提取工具。相比于BeautifulSoup,XPath基于局部遍历,速度更快。本文分享了几个实用的XPath知识点,如`string()`函数用于合并元素文本,`contains()`函数匹配部分属性值,以及`not`运算符排除特定属性的节点。在实际应用中,注意XPath可能遇到的问题,如提取多段文本时需正确处理换行符。
摘要由CSDN通过智能技术生成

 

用python写爬虫的时候,我们需要提取网页的数据,这时就用到BeautifulSoup或者XPath,学会一种并且掌握已经足够用了,我建议用xpath。

BeautifulSoup和XPath的原理不一样,BeautifulSoup是基于DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多。而lxml只会局部遍历。

BeautifulSoup是一个第三方的Python库,BeautifulSoup是用python写的,而XPath是一门语言,技术。xpath是用c写的,所有速率上可想而知。

以下是我在工作中遇到的,并且觉非常实用的知识点,陆续会在这里记录那些觉得工作中或者项目中非常实用的xpath技术:

  1. string()函数:string()函数会得到所指元素的所有节点文本内容,这些文本将会被拼接成一个字符串。如:xpath('string(//div[@id="info"])'),id="info"里面的所有标签文本内容会拼接成一个字符串,这种情况常用于爬虫中一段文本内容嵌在多个标签之中。
  2. contains()函数:contains 匹配一个属性值中包含的字符串,有时候我们想获取多个标签里面的数据,但是标签的属性值又不完全一样,这时候就可以用contains函数,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值