获取网页xpath

最新推荐文章于 2024-06-21 18:47:26 发布

ysh9888

最新推荐文章于 2024-06-21 18:47:26 发布

阅读量352

点赞数

文章标签： xpath

本文链接：https://blog.csdn.net/qq_43620967/article/details/109893864

版权

用google浏览器

按F12打开开发者界面
或者右键-检查
在这里插入图片描述
这三个按钮分别是辅助定位网页前端网络检查

辅助定位
点一下就会跳到对应位置

打开辅助工具

右键选中要抓的东西

复制到query里
黄色的就是抓到的部分

把数组下标去掉就是抓所有的

在这里插入图片描述

具体案例

表格状

在这里插入图片描述
抓文件名整列

//*/td[1]

在这里插入图片描述
标题

//*/td[1]/a

在这里插入图片描述

链接

//*/td[1]/a/@href

要看具体的网络结构

时间

//*/td[3]

http://www.xjboz.gov.cn/zwdt/tzgg.htm

直接复制对应的xpath为

//[@id=“line_u8_0”]/a/font
//[@id=“line_u8_1”]/a/font
在这里插入图片描述
这样不好爬整个列表

于是爬上一级
在这里插入图片描述
/html/body/div/section[3]/div/div[2]/section/ul

然后再抓下面对应的
每行
/html/body/div/section[3]/div/div[2]/section/ul/li
标题
/html/body/div/section[3]/div/div[2]/section/ul/li/a/font
时间
/html/body/div/section[3]/div/div[2]/section/ul/li/a/span

Xpath高级用法

https://blog.csdn.net/xc_zhou/article/details/80951874

position()

用来选取下标

|

合并抓取

网页中时间年与月日分开

1.

在这里插入图片描述

抓上级

XPath函数——字符串函数

2.

http://www.xa.gov.cn/xw/rdgz/1.html
在这里插入图片描述

1、concat()

  concat()函数用于串连多个字符串。

concat(/html/body/div[4]/div/div[3]/div/article[1]/a/div/div[2],
'-')

  concat(concat(/html/body/div[4]/div/div[3]/div/article[1]/a/div/div[2],
'-'),/html/body/div[4]/div/div[3]/div/article[1]/a/div/div[1])

在这里插入图片描述
更好的

concat(/html/body/div[4]/div/div[3]/div/article/a/div/div[2],'-',/html/body/div[4]/div/div[3]/div/article/a/div/div[1]
)

但是只能连一个，没法抓整个列表

内容有空行

但是不想要
在这里插入图片描述
注意到

可以用数组下标

/html/body/div/div[5]/div[3]/div/ul/li[1]/a/span[1]/text()[3]

ysh9888

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
获取网页xpath

用google浏览器按F12打开开发者界面或者右键-检查这三个按钮分别是辅助定位网页前端网络检查辅助定位点一下就会跳到对应位置打开辅助工具右键选中要抓的东西复制到query里黄色的就是抓到的部分把数组下标去掉就是抓所有的...
复制链接

扫一扫