疯子网页采集器教程之提取链接

本教程要采集的站点为
http://www.youlu.net/classify/2-1219-183-1.html

第一步:
打开地址
第一页地址为
http://www.youlu.net/classify/2-1219-183-1.html
下一页/第二页
http://www.youlu.net/classify/2-1219-183-2.html
第三页
http://www.youlu.net/classify/2-1219-183-3.html
第四页
http://www.youlu.net/classify/2-1219-183-4.html
找到地址变化规律,地址中只有一个数字是不一样的,
这个数字就是每一页的页码数
填写标签头
http://www.youlu.net/classify/2-1219-183-
标签尾
.html
跳过不一样的数字
------------------------------
第二步:
填写要采集的总页数,比如4页,这里总共有10页
填写页码变化,比如4,页码变化为4,
将采集第1、5、9页的链接,这里填1
---------------------------------
第三步:写链接规则
点击显示浏览器,在地址栏输入地址
http://www.youlu.net/classify/2-1219-183-1.html
点击打开,等网页加载完再点击代码
把代码用dreamweaver或别的网页编辑器打开方便浏览
在代码中找到我们要采集的链接列表区域,
找到所有标题的共同点
所有标题都有<DIV class=bName><A

这个标签和</A> </DIV>标签

其中标题 <DIV class=bName><A href="/2837850" target=_blank>史蒂夫乔布斯传</A> </DIV> 中的<A href="/2837850" target=_blank>是链接,

这个链接是不一样的,也是我们要采集的链接地址 标签头<DIV class=bName><A 标签尾</A> </DIV> 标签头和标签尾就是所有标题都有的标签

-------------------------------

第四步:

类似的我们还可以采集价位 方法一样

内容1

标签头<SPAN class=salePrice>

标签尾</SPAN>

内容2

标签头<SPAN class=listPrice>

标签尾</SPAN>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值