Nutch 强大的全文索引与网络爬虫框架

从官网 http://nutch.apache.org/ 上能看到Nutch做的越来越好了,最后更新版本是 v1.9 于 2014年8月16日发布,可见该框架的活跃度和开发受欢迎度还是很大的。

废话不多说,主要特点高扩展性和高伸缩性,主要可以看到,它能和哪些东东一起使用吧。顺便要讲一句:

Nutch分为两个版本,1.x和2.x。1.x最新版本为1.9,2.x最新版本为2.2.1。两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL

下面来看下官方Tutorial

Nutch 1.X tutorial(s)
Nutch 2.X tutorial(s)

我们这里主要研究MySQL的使用

环境Ubuntu10 DeskTop + MySQL+Nutch2.x







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值