xpath 统计有几个img标签_Python网络解析Xpath,妈妈再也不要担心我不会解析了!...

aa774326f2f8df1737b32d74609b7936.png

一、概况

前两篇我们把网络库Requests大概的用法学了一遍,把网站上的每页数据请求下来是爬虫的第一步,接下来我们就需要把每页上对我们有用数据进行提取。提取数据的方式有很多,比如说正则、xpath、bs4等,我们今天就来学一下xpath的语法。

这是小编准备的python学习资料,关注,转发。私信小编“01”即可免费获取拉!

6e315ee936b4ab7e42c9eb4bf13ec2dd.png
6e8b09850e188e156d447704edfe89ad.png
70d365607d19121b9d1f12111c516f28.png

二、Xpath

  • 什么是xpath?
  • XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
  • 什么是xml? W3School
  • XML 指可扩展标记语言(EXtensible Markup Language)
  • XML 是一种标记语言,很类似 HTML
  • XML 的设计宗旨是传输数据,而非显示数据
  • XML 标签没有被预定义。您需要自行定义标签。
  • XML 被设计为具有自我描述性。
  • XML 是 W3C 的推荐标准
  • XML和 HTML 的区别
47b6f5b1174065336f4ca991828409c1.png

三、准备

pip3 install lxml

四、用法

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

d001383926dc35445deb4a2529df5802.png

案例

e1cd7d720257c9a4d4e8d4dd137580b6.png

我们发现最后打印的值都是一个列表对象,如果想取值就可以遍历列表了。

选取未知节点 XPath 通配符可用来选取未知的 XML 元素。

7f5d866597d9f83a32dd78b271e65b55.png

案例

b9c38c704edbf9d2177844dd48c9ef2c.png

谓语的一些路径表达式

c3cd0cc053514dd7ec9f33d0a79e95ed.png

案例

f061cbd78460ccb301f3c9a3ae0cfda1.png

五、函数

4a3704b4826f48f15b9a9eb42573d8c7.png

案例

461c26f9f08bdc731989d858d513443b.png

以上是Xpath一些常用用法,如果想了解更多的语法可以参考 W3School

六、浏览器插件

我们可以在浏览器安装一些xpath插件,方便我们进行解析数据。

  • Chrome插件 XPath Helper
  • Firefox插件 XPath Checker

去浏览器扩展下载这些插件,会在浏览器左上角看到图标,如下

fbff38041e2a907b8f74cae4996940e2.png

插件

大概使用方法:

43e493445044cce9e02fe97042ef3b89.png

使用方法

七、总结

我们把网络库、解析库,接下来我们就可以开始真正的爬虫之旅,后续的文章打算用Requests和Xpath爬取几个网站。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值