使用Xpath进行数据爬虫,一个超好用的插件工具值得下载!

本文介绍了XPath作为Python爬虫中常用的数据定位工具,讲解了XPath的基本概念和两种路径类型。通过分享使用XPath Helper Chrome插件提升定位效率的经验,演示了如何利用XPath进行网页元素的抓取和数据存储。建议读者结合插件实践,提高爬虫技能。
摘要由CSDN通过智能技术生成

前言

使用python进行页面解析时,有三种方式:正则表达式、bs4、以及Xpath。其中Xpath是三种方法中最简便也是用得最广的一种。但是对于新手来说,编写代码来定位标签仍然是一个不小的难题。在我第一次使用Xpath的时候,试错了将近2h也没搞好标签定位,这里介绍我的第一个项目时,顺带推销个超好用的Xpath定位工具——插件:XPath Helper Chrome(但是个人的看法,还是要尽量自己写,不能仅仅依靠Helper,可以作为一种对比工具,看你的答案和Helper有什么区别?)


一、Xpath是什么

度娘说:XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。用于定位HTML页面中的某一元素。

通过一张网图我们可以清晰看到HTML的组成部分,一般我们用Xpath确定路径来定位树形结构中的某个叶子节点。


使用XPath Helper Chrome我们能快速得出节点的绝对路径和相对路径。(用电脑截图有点问题,此处继续借用网图)


绝对路径比较直观、好理解,但是不灵活,相当于从一棵树的底部往上数,经过哪个树根、哪片树叶都数的清清楚楚。
一个绝对路径的例子:/html/bo

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值