网友提问---一个稍微用点技巧的内容采集方法

网友的提问地址:http://bbs.locoy.com/spider-75585-1-1.html

网友问题概述:
该网友要采集内容的源代码如下:

<td valign=top>第1张</td></tr></table></li><li>
.......
<a href='4586_9.html' ...........
<td valign=top>第9张</td></tr></table></li><li>
<a href='4586_10.html' target='_blank'><img src='../up/allimg/512/041Q2120249/12041Q20249-9-lp.jpg' border='0' width='200' heigth='100'></a><table align=center width=85% border=0 cellspacing=0 cellpadding=0><tr>
<td valign=top>第10张</td></tr></table></li></ul></div></div></div></div></td></tr>
看该源码,可以了解到该网页大概是一个图片的列表。该网友要采集的是图片列表中的最后那张图片的标记文字,在 这个例子中是这个数字“10”。

这个内容采集的难点是:
由于“第1张”到“第10张”的html界定代码定义的完全一样,所以,如果想要专门去获取这个10,是无法去确定这个“开始字符串”和“结束字符串”的。

我的思路:
利用标签循环处理功能结合内容过滤功能来实现最终目的。

不过,具体如何实施效果,我在等该网友能否给出原始的测试网址,测试通过后。然后再更新吧。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值