万字博文教你python爬虫XPath库【详解篇】

孤寒者

已于 2022-01-20 22:30:40 修改

阅读量10w+

点赞数 340

分类专栏：爬虫从入门到精通系列教程文章标签： python 爬虫万字博文 Xpath库详解原力计划

于 2021-09-29 14:15:30 首次发布

转载需文末联系本作者（未经本人允许的转载完全不允许！）

本文链接：https://blog.csdn.net/qq_44907926/article/details/120247868

版权

爬虫从入门到精通系列教程专栏收录该内容

27 篇文章 234 订阅 ¥29.90 ¥99.00

订阅专栏

这篇万字博文详细介绍了XPath库在Python爬虫中的应用，包括XPath的基本概念、安装、常用规则、实例、谓语、获取文本、通配符、运算符的使用，以及实战中的骚操作。内容涵盖XPath的选择器、谓语、获取文本方法，还提供了大量代码示例供读者练习和理解。

摘要由CSDN通过智能技术生成

👻相信不少小伙伴们通过我的两篇万字博文的轮番轰炸已经实现了从入坑到会完全学会requests库，并且可以独立开发出属于自己的小爬虫项目！！！——爬虫之路，永无止境~👻

💦第一篇爬虫入坑文；一篇万字博文带你入坑爬虫这条不归路【万字图文】💦
💦第二篇爬虫库requests库详解。两万字博文教你python爬虫requests库【详解篇】💦

😬但是爬虫爬虫，重在爬取到我们想要的数据，那么我们该如何提取页面中我们所需要的信息呢？为了让小伙伴们更加深入的学习本文所讲的页面解析库，我先一步肝了一篇HTML万字详解，希望小伙伴们认认真真看完，看明白，看懂，多敲敲，日后你们自会感受到本博主的用意—— 《HTML两万字王者笔记大总结【❤️熬夜整理&建议收藏❤️】（上篇）》和HTML两万字王者笔记大总结【❤️熬夜整理&建议收藏❤️】（下篇）😬

👇
👉🚔直接跳到末尾🚔👈 ——>领取专属粉丝福利💖
☝️

😜爬取到我们想要的数据——专业点说就是进行页面解析！对于网页的节点来说，它可以定义id,class等多种属性。而且节点之间还有层次关系，在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么，在页面解析时，利用XPath或CSS选择器来提取某个节点，然后调用相应方法获取它的正文内容或者属性，不就可以提取我们想要的信息了吗！😜

重点来啦！重点来啦！！*💗💗💗

我们伟大的Python已经为我们封装了很多实现上述操作的解析库，其中比较强大&&用的较多的有lxml,Beautiful Soup,pyquery等。本篇博文带领小伙伴们走入XPath（我们日后最常用/最实用的解析库之一）的世界！

学好解析库，网页数据任我取！！！

❤️XPath❤️

💎1.XPath（路径表达式）

了解本专栏

关注

340
点赞
踩
992

收藏

觉得还不错? 一键收藏
打赏
286
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 286

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

孤寒者 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。