【Python爬虫】 XPath 与 selector 的 获取

xpath的值在网页中获取方式:

1. 首先可以使用以下三种方式中的任意一种打开浏览器的开发者模式

(1). 右键“检查”

(2). ctrl+shifft+i

(3). 浏览器“设置” --> "更多工具" --> “开发者工具”

使用下图(浏览器开发者模式)中的图标可选择浏览器中想要获取的内容

2. 在网页上选中想要获取的内容,开发者工具中会高亮显示对应的内容源码,如下图所示

3. 在开发者模式中找到对应的内容后点击右键 --->  Copy  --->   Copy  XPath  就可获取该内容对应的XPath值(指定的一个)

比如:上图所查询内容的XPath为://*[@id="content"]/div[1]/div[1]/div[1]/div/p[1]/a

                  下一条信息的XPath为://*[@id="content"]/div[1]/div[1]/div[2]/div/p[1]/a

对比可以发现,两条内容的XPath的区别就是

div[1]表示的是第一个div,而div[2]表示的是第二个div,想要获取所有的div时,将div后的数字直接删除即可,也就是说要获取所有的名称信息则可以使用的XPath为://*[@id="content"]/div[1]/div[1]/div/div/p[1]/a

4. 以上所讲的所有XPath只是找到相对应的位置,如果要获取值或其他一些数据则需要在上述所讲的XPath后加上“/text()”或“/@属性名”,两种取值方式的使用情况

(1). 获取html标签<a>xxxx</a>中间的“xxxx”内容使用的是text()。

(2).  获取标签中的属性值<a href="xxxx" data-url="uuuu"></a>,如果要获取“xxxx”使用@href,如果要获取“uuuu”则使用@data-url即可。

selector 的值在网页中获取方式:

1. 2. 与以上方法相同

3. 跟以上步骤相同,不同的是选择Copy后点击  Copy  selector  就可获取该内容对应的selector值(指定的一个),获取多个元素的方式与以上方法类似。

4. 在获取内容时,XPath是在 XPath值后直接跟上 /text 或 /@属性名就可获取,但在selector中,先获取到指定元素的所有信息,然后在获取到的信息基础上在继续获取,如下所示(item为一个元素的所有内容,就是根据selector获取到的内容):

(1). 获取html标签<a>xxxx</a>中间的“xxxx”内容使用的是 item.get_text() 

(2).  获取标签中的属性值<a href="xxxx" data-url="uuuu"></a>,如果要获取“xxxx”使用 item.get( ' hrerf ' ),如果要获取“uuuu”则使用 item.get( ' data-url ' )即可。

  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhouwhui椆

这是一个你请我恰饭的机会呀!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值