XPath语言在八爪鱼采集器中的运用(基础版)——以点击翻页代码为例(保姆级教程)

目录

一、打开想要爬取的网站

二、复制粘贴网站

三、打开八爪鱼采集器

四、进入页面,鼠标点击你想查询的内容,如下图所示:

五、根据右上角的操作提示来完成,如下图

六、网页翻页

七、再次打开刚才的网页界面

八、代码编写

九、将编辑好的代码放入八爪鱼采集器中


一、打开想要爬取的网站

以豆瓣读书为例:https://book.douban.com/tag/%E5%8A%B1%E5%BF%97

二、复制粘贴网站

三、打开八爪鱼采集器

步骤:新建-自定义任务-手动输入下的文本框里粘贴网址-保存设置

四、进入页面,鼠标点击你想查询的内容,如下图所示:

五、根据右上角的操作提示来完成,如下图

选中全部子元素-选中全部相似组-元素中的数据内容

【如果不翻页,那么此时就可以不用继续往下看文章了,直接点击右上角的保存-采集,即可】

六、网页翻页

点击翻页按钮-点击“后页”-确认-完成,如图

七、再次打开刚才的网页界面

单击右键-点击检查-鼠标划到最后点击“后页”。

(这个网页是“后页”,但其他的网站是什么,大家根据实际情况看就行)如下图

八、代码编写

这里是要写一部分代码啦,很重要哦(敲黑板)

1、我们先学习一下这条代码的XPath语言逻辑与注解

1、/或//:选取元素的符号,也表示不论后面的元素在html中的任何位置,均选取该元素(也就是所查询那节代码开头的第一个“单词”)

如下图的代码:<a href "/tag/励志?start=20&ty.pe=T">后页></a>

那么开头的单词就是“a”

因此写为://a[ ]

因为“后页”是文本爬取,所以需要用taxt这个特殊函数(特殊原因:用不上@符号,关于@符号文章后面会提,这里不做过多阐述)

所以翻页代码如下

//a[text()="后页>"]

这就是最简单的XPath代码逻辑,在搜索框写完后,通过看代码页面有没有显示黄色标注(如下图),如没有,则代码有错,再仔细核对修改;如有,则可继续看步骤九了。

补充:2、@:选取属性(写在属性前面)

如图的代码(这个代码是我额外补充的知识点,和例子八爪鱼爬取翻页关系不大,但很实用):<body class="b_respl b_sbText"

那么属性就是:class

因此写为://body[ @class="b_respl b_sbText"]

通过看代码页面有没有显示黄色标注(如下图),如没有,则代码有错,再仔细核对修改;如有,则可继续看步骤九了。

九、将编辑好的代码放入八爪鱼采集器中

因为我是以:如何使网页在八爪鱼采集器中翻页为例,所以再次进入开始打开的爬取界面,

“点击翻页”-基础设置-元素XPath-拼接循环项XPath-复制粘贴步骤八测试出的代码-点击“应用”

即可,如图

ps:测试自己有没有翻页成功:点击“循环翻页”-“点击翻页”-再次点击“循环翻页”-再次点击“点击翻页”。然后观察网页界面,会发现网页跳转到第二页了,恭喜!说明翻页成功!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值