疯子网页采集器教程之提取链接

最新推荐文章于 2024-09-06 10:01:05 发布

hwbbbb

最新推荐文章于 2024-09-06 10:01:05 发布

阅读量889

点赞数

分类专栏：疯子采集器文章标签：采集器

本文链接：https://blog.csdn.net/hwbbbb/article/details/84154087

版权

疯子采集器专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本教程要采集的站点为
http://www.youlu.net/classify/2-1219-183-1.html

第一步：
打开地址
第一页地址为
http://www.youlu.net/classify/2-1219-183-1.html
下一页/第二页
http://www.youlu.net/classify/2-1219-183-２.html
第三页
http://www.youlu.net/classify/2-1219-183-３.html
第四页
http://www.youlu.net/classify/2-1219-183-４.html
找到地址变化规律，地址中只有一个数字是不一样的，
这个数字就是每一页的页码数
填写标签头
http://www.youlu.net/classify/2-1219-183-
标签尾
.html
跳过不一样的数字
------------------------------
第二步：
填写要采集的总页数，比如４页，这里总共有１０页
填写页码变化，比如4，页码变化为4，
将采集第1、5、9页的链接，这里填1
---------------------------------
第三步：写链接规则
点击显示浏览器，在地址栏输入地址
http://www.youlu.net/classify/2-1219-183-1.html
点击打开，等网页加载完再点击代码
把代码用dreamweaver或别的网页编辑器打开方便浏览
在代码中找到我们要采集的链接列表区域，
找到所有标题的共同点
所有标题都有<DIV class=bName><A