前言
使用python进行页面解析时,有三种方式:正则表达式、bs4、以及Xpath。其中Xpath是三种方法中最简便也是用得最广的一种。但是对于新手来说,编写代码来定位标签仍然是一个不小的难题。在我第一次使用Xpath的时候,试错了将近2h也没搞好标签定位,这里介绍我的第一个项目时,顺带推销个超好用的Xpath定位工具——插件:XPath Helper Chrome(但是个人的看法,还是要尽量自己写,不能仅仅依靠Helper,可以作为一种对比工具,看你的答案和Helper有什么区别?)
一、Xpath是什么
度娘说:XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。用于定位HTML页面中的某一元素。
通过一张网图我们可以清晰看到HTML的组成部分,一般我们用Xpath确定路径来定位树形结构中的某个叶子节点。
使用XPath Helper Chrome我们能快速得出节点的绝对路径和相对路径。(用电脑截图有点问题,此处继续借用网图)
绝对路径比较直观、好理解,但是不灵活,相当于从一棵树的底部往上数,经过哪个树根、哪片树叶都数的清清楚楚。
一个绝对路径的例子:/html/bo