ForeSpider数据采集软件之链接抽取

ForeSpider数据采集软件之链接抽取

前嗅ForeSpider数据采集软件是一款通用性互联网数据采集软件,软件几乎可以采集互联网上所有公开的数据,通过可视化的操作流程,从建表、过滤、采集到入库一步到位。同时软件内置了强大的爬虫脚本语言。如果有通过可视化采集不到的内容,都可以通过简单几行代码,实现强大的脚本采集。

很多用户说可视化的操作太简单,一定要看软件脚本的教程,所以今天给大家出一个爬虫脚本的链接抽取教程,满足用户更多的需求。

案例使用的是大众点评网,要抽取下面的翻页链接。


 

第一步先看每一页的链接地址有没有规律。

【第二页】

 

【第三页】

可以看到每一页的链接地址只有最后一个数字是不一样的,分别是对应的页码数,我们可以通过拼接的方式得到所有翻页的链接地址。下面写了拼接第二页链接地址的脚本:

 


第一行代码:定义一个url类的变量u

第二行代码:u.urlname是网页的链接地址,为其赋值

第三行代码:u.tmplid是这个链接抽取所要关联的模板id,这里是翻页,所以关联自身模板

第四行代码:这个链接抽取所对应的频道id

第五行代码:u.title是链接标题,为其赋值

第六行代码:将所拼接的链接添加到最后的结果中

上面只是解释每一行代码的作用,取到的只是第二页的链接,下面给大家放完整的内容:

 



 

通过FindClass的方式,从源码中得到总页数,然后使用for循环拼接每一页的链接。一共才用了12行(其中还包含了两行注释)就得到了自己想要的链接,是不是非常的简单呢,希望大家多看帮助文档,很多问题在帮助文档里就有了答案(偷偷告诉你我也经常遇到不会的然后去看文档)。

前嗅ForeSpider是一款非常简单好用的通用型数据采集软件,操作简单功能强大的同时还保证了采集速度,完全可以满足企业级用户需求。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值