一、Xpath helper下载
地址:Xpath helper
提取码:337b
二、解压
将下载的.crx文件后缀改为.rar格式,然后新建一个文件夹将其放入,解压到当前文件夹
三、谷歌浏览器开启开发者模式
依次点击右上角三点——>设置——>扩展程序——>加载已解压的扩展程序——>选择刚才新建的文件夹即可
四、使用
- 首先需要按F12打开网页开发者模式,找到对应需要解析部分的位置,然后右击选择Copy XPath即可
-
快捷键Ctrl+Shift+X打开XPath解析器,左侧粘贴XPath路径,右侧输出结果
-
再次调试XPath,定位元素文本
五、总结
写爬虫我们首先要把网页的源码下载下来,然后需要对网页进行解析,所以需要解析器,定位所需元素,当然可以使用python自带解析器beautifulsoup,这里选择XPath,一般情况下尽量不要使用XPath,因为我们复制的路径,并不是真正的网页源码,正确的源码在打开网页之后右击选择查看网页代码,他们之间还是有一定的差距的。