前言
本文采用软件为八爪鱼,数据采集网站为中国经济社会大数据研究平台。
- 问题:在爬取当前页数据时,点击下一页没有出现
循环点击下一页
按钮,点击循环点击单个元素
后,发现在任务流程中循环翻页
选项并不能选中选中下一页符合。 - 解决思路:首先对下一页符号进行
XPath
提取,将提取出来的复制进八爪鱼当中,完成可点击下一页方法,然后对每个流程进行Ajax设置。 XPath
、svg
,Ajax
一、八爪鱼 XPath
设置
前期准备
- 给chrome浏览器安装XPath插件
参考 “Xpath Helper(xpath辅助插件)”
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_54528857/article/details/122202572
————————————————
版权声明:本文为CSDN博主「陈同学q」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_54528857/article/details/122202572
添加链接描述在八爪鱼中插入XPath方法(参考B站八爪鱼教程——数字翻页教程 添加链接描述)
1. svg
问题
复制下一页箭头的XPath后,粘贴到XPath-helper,发现无法定位到下一页箭头。
有可能是 svg标签问题
更改写法,用//*[name()='svg']
采用//div[@class='valueSearch_pagination__jCQyC']//*[name()='svg'][@class="btn btn-default valueSearch_next-btn__2EUxs valueSearch_page-btn__2aBOh"][@aria-hidden="true"]
参考 “svg标签元素的XPATH定位”
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/joker_zsl/article/details/106898102
————————————————
版权声明:本文为CSDN博主「joker_zsl」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/joker_zsl/article/details/106898102添加链接描述
将写好的XPath复制进八爪鱼,此时可以看见下一页箭头可以被选中,点击翻页,可以正常翻页。
二、八爪鱼Ajax
八爪鱼
Ajax
用法及意思参考 “ajax网页没有办法采集,Ajax网页采集方法(最新) - 八爪鱼采集器” 添加链接描述
主要目的是为解决,浏览网页翻页后网址并不跳转问题,可采用Ajax
进行识别
在上文基础上,在点击翻页
高级设置,将Ajax
勾选上,超时时间根据网页自行设定。