6 xpath
首先需要安装Google的Chrome浏览器
6.1 安装xpath插件
下载 xpath_helper_2_0_2.crx 插件,谷歌拓展商店或者crx4chrome网站均可下载。
在Chrome浏览器中,访问 chrome://extensions/ 。打开开发者模式(把开关推动到右边)
把下载的crx文件拖到该页面即安装完成。
安装后,留意右上角
这个,就是xpath插件
访问任意其他页面,比如www.baidu.com
然后,点击 xpath 插件按钮,会出现如下内容:左边的QUERY和右边的RESULT
可以在左边的QUERY输入查询的内容格式(//div),右边会呈现对应的结果。网页会有黄色
6.2 xpath语法
以贴吧为例:
https://tieba.baidu.com/f?kw=%E5%8A%A8%E6%BC%AB&ie=utf-8&pn=50
1. 查找标签
a 绝对路径(以//开头)
//div
//span
//a
b 相对路径(以./开头)
./div
./span
./a
c. 子路径(在父目录下查找子路径)
//div/span
//div/a
//ul/li/div/div/div/div/a
//ul/li//a
2 查找属性
格式:
标签名[@属性名=属性值]
比如:
//a[@class="j_th_tit"]
//div[@class="col2_left j_threadlist_li_left"]
//a[@class="frs-author-name j_user_card"]
3 读取属性
格式:
标签名/@属性名
比如:
//a[@class="j_th_tit"]/@href
//img[@class="j_retract"]/@src
4 获取内容
格式:
标签名/text()
比如:
//a[@class="j_th_tit"]/text()
//div[@class="col2_left j_threadlist_li_left"]/text()
//a[@class="frs-author-name j_user_card"]/text()
如果不写text(),实际上拿到的是标签。
如果写了text(),实际上拿到的是文本(字符串)