网友问题回答---新浪博客怎么采集

这个采集的目标网址暂定为新浪旅游:http://travel.sina.com.cn/109/blog/chn/list.html

点击这个博客列表下面的分页,可以发现浏览器上地址栏内的url地址未发生任何变化。由此可以判定,网页中博客列表的显示可能用ajax等技术实现的动态显示,采集会有难度。

不过,还是先看看网页源码再说。如图:

可以发现所有500条博客网址的地址是在JS代码中保存的。如此明显的有规则的包含url地址的文本,我们可以用最简单的方法来实现采集:


1、复制包含这500条url的文本到记事本中,并保存为文本文件。
2、用正则表达式匹配过滤(也可以用别的专用工具等等),获得所有的500条url地址,然后按一行一url的方式保存为文本文件。
3、在用火车头采集器的第一步:定义"采集网址规则“ 时,导入该文本,剩下的采集博客内容的规则定义就很简单了。具体方法和上篇文章类似,在此不再叙述了。



上面是大概的方法,接下来详述下某些步骤。
第二步中的获取500博客url时,我用的是TextCrawler这个免费软件,很强大简洁的工具,支持正则表达式。
如图,设置好正则表达式,非常简单的。

然后点击Extract按钮,就可以得到想要的结果,如下图。

保存后,导入火车头。


然后,就可以定义内容采集规则,按需采集内容了。下面,我定义两个"博客标题"、"博客内容"的标签,并演示下测试结果:



OK, 就写到这了。有问题跟贴^^... thx 8

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值