一个比较好用的网络爬虫软件GooSeeker

本文介绍了网络爬虫软件GooSeeker的使用体验,它作为Firefox插件,支持跨平台操作。在Windows 7环境下成功运行,通过MetaStudio定义抓取规则,DataScraper进行实际抓取。软件能生成规整的XML文件,方便后续处理。主要步骤包括设置主题、bucket、数据映射、翻页线索和二级索引。作者对其设计和功能表示赞赏。
摘要由CSDN通过智能技术生成

     最近要搜集一些新闻语料,看论文发现一个叫GooSeeker的爬虫软件还不错,看了一天多的教程终于跑起来了,趁着这会在抓新浪新闻过来发篇blog。

     这个爬虫是作为Firefox的插件出现的。一开始还觉得不够强大,后来一想着不正好把跨平台任务交给火狐去做了么,作者真是高明!我是在win7下跑的,linux没试过。

     说说黑盒两端吧,我是爬新浪新闻,由这个列表进去再爬新闻内容,最后给出的是由新闻标题和文字内容组成的xml文件,xml很规整,便于下一步自己处理。

     主要有两个部分组成吧MetaStudio和DataScraper。前者是定义抓取规则的,比较麻烦,主要时间再看这个。后者是抓取插件。

     下边就流水讲怎样爬这个2级页面的吧

     首先打开MetaStudio,将网址放进去,它自动加载进去。

     新建一个主题

     然后新建bucket,这里边的东西就是你要在该页面爬取得东西。

     刚bucket里的信息属性添加映射。这里有数据映射和FreeFormat映射,前边就是字符对应了,后边这个是他家的特色菜。比较智能吧。

     然后添加翻页线内线索Marker,就是控制你下一页下一页的

     然后添加二级索引,就是给bucket里的超链接添加的,定义一个主题

     然后上传到服务器

     然后打开DataScraper开始爬这个列表页ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值