XPath语言在八爪鱼采集器中的运用（基础版）——以点击翻页代码为例（保姆级教程）

努力成为头发茂密的程序员

于 2024-11-13 14:58:09 发布

阅读量1.1k

点赞数 5

文章标签：前端 html 爬虫全文检索开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79629586/article/details/143722157

版权

目录

一、打开想要爬取的网站

二、复制粘贴网站

三、打开八爪鱼采集器

四、进入页面，鼠标点击你想查询的内容，如下图所示：

五、根据右上角的操作提示来完成，如下图

六、网页翻页

七、再次打开刚才的网页界面

八、代码编写

九、将编辑好的代码放入八爪鱼采集器中

一、打开想要爬取的网站

以豆瓣读书为例：https://book.douban.com/tag/%E5%8A%B1%E5%BF%97

二、复制粘贴网站

三、打开八爪鱼采集器

步骤：新建-自定义任务-手动输入下的文本框里粘贴网址-保存设置

四、进入页面，鼠标点击你想查询的内容，如下图所示：

五、根据右上角的操作提示来完成，如下图

选中全部子元素-选中全部相似组-元素中的数据内容

【如果不翻页，那么此时就可以不用继续往下看文章了，直接点击右上角的保存-采集，即可】

六、网页翻页

点击翻页按钮-点击“后页”-确认-完成，如图

七、再次打开刚才的网页界面

单击右键-点击检查-鼠标划到最后点击“后页”。

（这个网页是“后页”，但其他的网站是什么，大家根据实际情况看就行）如下图

八、代码编写

这里是要写一部分代码啦，很重要哦（敲黑板）

1、我们先学习一下这条代码的XPath语言逻辑与注解

1、/或//:选取元素的符号，也表示不论后面的元素在html中的任何位置，均选取该元素（也就是所查询那节代码开头的第一个“单词”）

如下图的代码：<a href "/tag/励志？start=20&ty.pe=T">后页></a>

那么开头的单词就是“a”

因此写为：//a[ ]

因为“后页”是文本爬取，所以需要用taxt这个特殊函数（特殊原因：用不上@符号，关于@符号文章后面会提，这里不做过多阐述）

所以翻页代码如下

//a[text()="后页>"]

这就是最简单的XPath代码逻辑，在搜索框写完后，通过看代码页面有没有显示黄色标注（如下图），如没有，则代码有错，再仔细核对修改；如有，则可继续看步骤九了。

补充：2、@：选取属性（写在属性前面）

如图的代码(这个代码是我额外补充的知识点，和例子八爪鱼爬取翻页关系不大，但很实用）：<body class="b_respl b_sbText"

那么属性就是：class

因此写为：//body[ @class="b_respl b_sbText"]

通过看代码页面有没有显示黄色标注（如下图），如没有，则代码有错，再仔细核对修改；如有，则可继续看步骤九了。

九、将编辑好的代码放入八爪鱼采集器中

因为我是以：如何使网页在八爪鱼采集器中翻页为例，所以再次进入开始打开的爬取界面，

“点击翻页”-基础设置-元素XPath-拼接循环项XPath-复制粘贴步骤八测试出的代码-点击“应用”

即可,如图

ps:测试自己有没有翻页成功：点击“循环翻页”-“点击翻页”-再次点击“循环翻页”-再次点击“点击翻页”。然后观察网页界面，会发现网页跳转到第二页了，恭喜！说明翻页成功！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。