网络爬虫相关软件以及论文检索与推荐网站调研

最近接到一个项目,需要做一个基于网络爬虫技术的论文检索与推荐的网站,所以打算先对市面上已有的基于此技术的软件进行一次统计和分析,以备后面查询使用。

一. 网络爬虫相关软件

1. 搜索引擎 Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索Web爬虫
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。
Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做
每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作

2. 网站爬虫 Grub Next Generation
Grub Next Generation 是一个分布式的网页爬虫系统,包含客户端和服务器可以用来维护网页的索引。

3. 网站数据采集软件 网络矿工采集器(原soukey采摘)
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下:

  1. 多任务多线程数据采集,支持POST方式;
  2. 可采集Ajax页面;
  3. 支持Cookie,支持手工登录采集数据;
  4. 支持采集事务;
  5. 支持数据自动及手工导出,导出格式为:文本、Excel、Access、MSSql、Mysql等;
  6. 支持在线发布数据;
  7. 支持导航网址的采集,导航深度不限;
  8. 支持自动翻页;
  9. 支持文件下载,可以采集图片、Flash及其他文件;
  10. 支持采集结果数据的加工,包括替换、附前缀后缀、截取等操作,支持正则;
  11. 采集网址定义不仅支持基本参数定义,也可外接字典数据作为网址参数,进行数据采集;
  12. 支持一个任务多实例运行;
  13. 提供计划任务,计划任务支持Soukey采集任务、外部可执行文件任务、数据库存储过程任务;
  14. 计划任务执行周期支持每天、每周及自定义运行间隔;最小单位为:半小时;
  15. 支持任务触发器,即可在采集任务完成后,自动触发执行其他任务(包括可执行文件或存储过程)。
  16. 完善的日志功能:系统日志、任务执行日志、出错日志等等;
  17. 系统提供MINI浏览器可用于捕获Cookie或POST数据;
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值