最近要搜集一些新闻语料,看论文发现一个叫GooSeeker的爬虫软件还不错,看了一天多的教程终于跑起来了,趁着这会在抓新浪新闻过来发篇blog。
这个爬虫是作为Firefox的插件出现的。一开始还觉得不够强大,后来一想着不正好把跨平台任务交给火狐去做了么,作者真是高明!我是在win7下跑的,linux没试过。
说说黑盒两端吧,我是爬新浪新闻,由这个列表进去再爬新闻内容,最后给出的是由新闻标题和文字内容组成的xml文件,xml很规整,便于下一步自己处理。
主要有两个部分组成吧MetaStudio和DataScraper。前者是定义抓取规则的,比较麻烦,主要时间再看这个。后者是抓取插件。
下边就流水讲怎样爬这个2级页面的吧
首先打开MetaStudio,将网址放进去,它自动加载进去。
新建一个主题
然后新建bucket,这里边的东西就是你要在该页面爬取得东西。
刚bucket里的信息属性添加映射。这里有数据映射和FreeFormat映射,前边就是字符对应了,后边这个是他家的特色菜。比较智能吧。
然后添加翻页线内线索Marker,就是控制你下一页下一页的
然后添加二级索引,就是给bucket里的超链接添加的,定义一个主题
然后上传到服务器
然后打开DataScraper开始爬这个列表页ÿ