本教程要采集的站点为
http://www.youlu.net/classify/2-1219-183-1.html
第一步:
打开地址
第一页地址为
http://www.youlu.net/classify/2-1219-183-1.html
下一页/第二页
http://www.youlu.net/classify/2-1219-183-2.html
第三页
http://www.youlu.net/classify/2-1219-183-3.html
第四页
http://www.youlu.net/classify/2-1219-183-4.html
找到地址变化规律,地址中只有一个数字是不一样的,
这个数字就是每一页的页码数
填写标签头
http://www.youlu.net/classify/2-1219-183-
标签尾
.html
跳过不一样的数字
------------------------------
第二步:
填写要采集的总页数,比如4页,这里总共有10页
填写页码变化,比如4,页码变化为4,
将采集第1、5、9页的链接,这里填1
---------------------------------
第三步:写链接规则
点击显示浏览器,在地址栏输入地址
http://www.youlu.net/classify/2-1219-183-1.html
点击打开,等网页加载完再点击代码
把代码用dreamweaver或别的网页编辑器打开方便浏览
在代码中找到我们要采集的链接列表区域,
找到所有标题的共同点
所有标题都有<DIV class=bName><A
这个标签和</A> </DIV>标签
其中标题 <DIV class=bName><A href="/2837850" target=_blank>史蒂夫乔布斯传</A> </DIV> 中的<A href="/2837850" target=_blank>是链接,
这个链接是不一样的,也是我们要采集的链接地址 标签头<DIV class=bName><A 标签尾</A> </DIV> 标签头和标签尾就是所有标题都有的标签
-------------------------------
第四步:
类似的我们还可以采集价位 方法一样
内容1
标签头<SPAN class=salePrice>
标签尾</SPAN>
内容2
标签头<SPAN class=listPrice>
标签尾</SPAN>