对Xpath爬取网页数据的理解

最新推荐文章于 2023-12-29 12:13:25 发布

jly58fgjk

最新推荐文章于 2023-12-29 12:13:25 发布

阅读量2k

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jly58fgjk/article/details/51366308

版权

本文介绍了如何安装配置Xpath和lxml库，详细讲解了如何使用Xpath来提取网页中的感兴趣内容。通过导入etree模块，结合HTML源代码，使用Xpath的匹配思想，如树状结构、逐层定位，以及提取文本和属性的方法。此外，还分享了Xpath的一些特殊用法，如以特定字符开头的选择和标签套标签的提取技巧。

摘要由CSDN通过智能技术生成

首先对Xpath进行安装配置

安装Xpath 安装 lxml库从Python第三方库下载，或者 pip install lxml

学会使用Xpath

导入etree模块

from lxml import etree

使用Xpath 提取网页感兴趣代码

Selector= etree.HTML(html) (html 网页源代码，通过html = requests.get(...).text获取)

把获取的源代码转换成可以用Xpath提取的文本

content = Selector.xpath(一段神奇的符号)

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。