用google浏览器
按F12打开开发者界面
或者右键-检查
这三个按钮分别是 辅助定位 网页前端 网络检查
辅助定位
点一下就会跳到对应位置
打开辅助工具
右键选中要抓的东西
复制到query里
黄色的就是抓到的部分
把数组下标去掉就是抓所有的
具体案例
表格状
抓文件名整列
//*/td[1]
标题
//*/td[1]/a
链接
//*/td[1]/a/@href
要看具体的网络结构
时间
//*/td[3]
http://www.xjboz.gov.cn/zwdt/tzgg.htm
直接复制对应的xpath为
//[@id=“line_u8_0”]/a/font
//[@id=“line_u8_1”]/a/font
这样不好爬整个列表
于是爬上一级
/html/body/div/section[3]/div/div[2]/section/ul
然后再抓下面对应的
每行
/html/body/div/section[3]/div/div[2]/section/ul/li
标题
/html/body/div/section[3]/div/div[2]/section/ul/li/a/font
时间
/html/body/div/section[3]/div/div[2]/section/ul/li/a/span
Xpath高级用法
https://blog.csdn.net/xc_zhou/article/details/80951874
position()
用来选取下标
|
合并抓取
网页中时间年与月日分开
1.
抓上级
2.
http://www.xa.gov.cn/xw/rdgz/1.html
1、concat()
concat()函数用于串连多个字符串。
concat(/html/body/div[4]/div/div[3]/div/article[1]/a/div/div[2],
'-')
concat(concat(/html/body/div[4]/div/div[3]/div/article[1]/a/div/div[2],
'-'),/html/body/div[4]/div/div[3]/div/article[1]/a/div/div[1])
更好的
concat(/html/body/div[4]/div/div[3]/div/article/a/div/div[2],'-',/html/body/div[4]/div/div[3]/div/article/a/div/div[1]
)
但是只能连一个,没法抓整个列表
内容有空行
但是不想要
注意到
可以用数组下标
/html/body/div/div[5]/div[3]/div/ul/li[1]/a/span[1]/text()[3]