python爬虫xpath非常实用的知识点

最新推荐文章于 2022-09-17 11:37:58 发布

辉辉咯

最新推荐文章于 2022-09-17 11:37:58 发布

阅读量780

点赞数

分类专栏： scrapy框架 python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41020281/article/details/81394798

版权

在Python爬虫中，XPath是高效的数据提取工具。相比于BeautifulSoup，XPath基于局部遍历，速度更快。本文分享了几个实用的XPath知识点，如`string()`函数用于合并元素文本，`contains()`函数匹配部分属性值，以及`not`运算符排除特定属性的节点。在实际应用中，注意XPath可能遇到的问题，如提取多段文本时需正确处理换行符。

摘要由CSDN通过智能技术生成

用python写爬虫的时候，我们需要提取网页的数据，这时就用到BeautifulSoup或者XPath，学会一种并且掌握已经足够用了，我建议用xpath。

BeautifulSoup和XPath的原理不一样，BeautifulSoup是基于DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多。而lxml只会局部遍历。

BeautifulSoup是一个第三方的Python库，BeautifulSoup是用python写的，而XPath是一门语言，技术。xpath是用c写的，所有速率上可想而知。

以下是我在工作中遇到的，并且觉非常实用的知识点，陆续会在这里记录那些觉得工作中或者项目中非常实用的xpath技术：

string()函数：string()函数会得到所指元素的所有节点文本内容，这些文本将会被拼接成一个字符串。如：xpath('string(//div[@id="info"])')，id="info"里面的所有标签文本内容会拼接成一个字符串，这种情况常用于爬虫中一段文本内容嵌在多个标签之中。
contains()函数：contains 匹配一个属性值中包含的字符串，有时候我们想获取多个标签里面的数据，但是标签的属性值又不完全一样，这时候就可以用contains函数，

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。