【Python爬虫】 XPath 与 selector 的获取

zhouwhui椆

已于 2023-03-30 16:13:52 修改

阅读量5.9k

点赞数

分类专栏： Python爬虫文章标签： python 关系选择器大数据

于 2020-08-20 20:17:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37251994/article/details/108132122

版权

Python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

xpath的值在网页中获取方式：

1. 首先可以使用以下三种方式中的任意一种打开浏览器的开发者模式

（1）. 右键“检查”

（2）. ctrl+shifft+i

（3）. 浏览器“设置” --> "更多工具" --> “开发者工具”

使用下图（浏览器开发者模式）中的图标可选择浏览器中想要获取的内容

2. 在网页上选中想要获取的内容，开发者工具中会高亮显示对应的内容源码，如下图所示

3. 在开发者模式中找到对应的内容后点击右键 ---> Copy ---> Copy XPath 就可获取该内容对应的XPath值（指定的一个）

比如：上图所查询内容的XPath为：//*[@id="content"]/div[1]/div[1]/div[1]/div/p[1]/a

下一条信息的XPath为：//*[@id="content"]/div[1]/div[1]/div[2]/div/p[1]/a

对比可以发现，两条内容的XPath的区别就是

div[1]表示的是第一个div，而div[2]表示的是第二个div，想要获取所有的div时，将div后的数字直接删除即可，也就是说要获取所有的名称信息则可以使用的XPath为：//*[@id="content"]/div[1]/div[1]/div/div/p[1]/a

4. 以上所讲的所有XPath只是找到相对应的位置，如果要获取值或其他一些数据则需要在上述所讲的XPath后加上“/text()”或“/@属性名”，两种取值方式的使用情况

（1）. 获取html标签<a>xxxx</a>中间的“xxxx”内容使用的是text()。

（2）. 获取标签中的属性值<a href="xxxx" data-url="uuuu"></a>，如果要获取“xxxx”使用@href，如果要获取“uuuu”则使用@data-url即可。

selector 的值在网页中获取方式：

1. 2. 与以上方法相同

3. 跟以上步骤相同，不同的是选择Copy后点击 Copy selector 就可获取该内容对应的selector值（指定的一个），获取多个元素的方式与以上方法类似。

4. 在获取内容时，XPath是在 XPath值后直接跟上 /text 或 /@属性名就可获取，但在selector中，先获取到指定元素的所有信息，然后在获取到的信息基础上在继续获取，如下所示（item为一个元素的所有内容，就是根据selector获取到的内容）：

（1）. 获取html标签<a>xxxx</a>中间的“xxxx”内容使用的是 item.get_text()

（2）. 获取标签中的属性值<a href="xxxx" data-url="uuuu"></a>，如果要获取“xxxx”使用 item.get( ' hrerf ' )，如果要获取“uuuu”则使用 item.get( ' data-url ' )即可。

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python爬虫】 XPath 与 selector 的获取

xpath的值在网页中获取方式：1. 首先可以使用以下三种方式中的任意一种打开浏览器的开发者模式（1）. 右键“检查”（2）. ctrl+shifft+i（3）. 浏览器“设置” --> "更多工具" --> “开发者工具”使用下图（浏览器开发者模式）中的图标可选择浏览器中想要获取的内容2. 在网页上选中想要获取的内容，开发者工具中会高亮显示对应的内容源码，如下图所示3. 在开发者模式中找到对应的内容后点击右键 ---> Copy ---> ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zhouwhui椆 这是一个你请我恰饭的机会呀！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。