安装XPath插件
写网络爬虫经常需要用到XPath(XML Path Language),它是一门在HTML/XML文档中查找信息的语言,可以用来在HTML/XML文房中对元素和属性进行遍历,使用XPath的工具有Chrome中的XPath helper插件或者Firefox中的XPach Checker,我使用的是Chrome浏览器,现在就谈谈怎样安装Chrome中的XPath helper插件。
首先需要下载这个插件https://pan.baidu.com/s/1Ntd48Tmn-69zSLBVqy64Yw,提取码prlm,然后在浏览器地址栏输入:chrome://extensions/ 找到刚刚下载的xpath-helper.crx,把它拖动到谷歌浏览器的扩展程序页面。但是最新版本的Chrome浏览器不支持安装本地插件了,会出现一个提示,我安装的时候就是在这里遇到了问题,经过一番努力找到了解决问题的方法。右击浏览器图标选择属性,在目标栏最后面输入--enable-easy-off-store-extension-install,(要留一个空格)再点击确定,然后再把下载的插件拖动到谷歌浏览器的扩展程序页面,根据提示点击安装就好了。
右上角出现一个X。(感谢在此过程中给我提供帮助的朋友)
XPath学习重点
1、获取文本
'p/text()'表示选择p标签的内容
2、在XPath开始的时候表示从html的任意位置开始选择
'body//div'表示body下面任意一个div标签
3、@符号:
'a/@href'表示获取a标签中的href属性值
'//ul[@id="detail-list"]'表示获取所有id等于detail-list的标签