一个比较好用的网络爬虫软件GooSeeker

最新推荐文章于 2024-09-11 07:28:35 发布

嗯哼微微笑

最新推荐文章于 2024-09-11 07:28:35 发布

阅读量1.1w

点赞数 1

文章标签：网络爬虫软件跨平台爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ccg159/article/details/18465057

版权

本文介绍了网络爬虫软件GooSeeker的使用体验，它作为Firefox插件，支持跨平台操作。在Windows 7环境下成功运行，通过MetaStudio定义抓取规则，DataScraper进行实际抓取。软件能生成规整的XML文件，方便后续处理。主要步骤包括设置主题、bucket、数据映射、翻页线索和二级索引。作者对其设计和功能表示赞赏。

摘要由CSDN通过智能技术生成

最近要搜集一些新闻语料，看论文发现一个叫GooSeeker的爬虫软件还不错，看了一天多的教程终于跑起来了，趁着这会在抓新浪新闻过来发篇blog。

这个爬虫是作为Firefox的插件出现的。一开始还觉得不够强大，后来一想着不正好把跨平台任务交给火狐去做了么，作者真是高明！我是在win7下跑的，linux没试过。

说说黑盒两端吧，我是爬新浪新闻，由这个列表进去再爬新闻内容，最后给出的是由新闻标题和文字内容组成的xml文件，xml很规整，便于下一步自己处理。

主要有两个部分组成吧MetaStudio和DataScraper。前者是定义抓取规则的，比较麻烦，主要时间再看这个。后者是抓取插件。

下边就流水讲怎样爬这个2级页面的吧

首先打开MetaStudio，将网址放进去，它自动加载进去。

新建一个主题

然后新建bucket，这里边的东西就是你要在该页面爬取得东西。

刚bucket里的信息属性添加映射。这里有数据映射和FreeFormat映射，前边就是字符对应了，后边这个是他家的特色菜。比较智能吧。

然后添加翻页线内线索Marker，就是控制你下一页下一页的

然后添加二级索引，就是给bucket里的超链接添加的，定义一个主题

然后上传到服务器

然后打开DataScraper开始爬这个列表页ÿ

最低0.47元/天解锁文章

嗯哼微微笑

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。