搭建nutch二次开发环境(for 1.x)

1. 安装ecllipse    www.eclipse.org/downloads/ 下载Eclipse for Java EE

2. 安装Subclipse 插件,打开Eclipse -> help -> install new software -> add ->  输入地址http://subclipse.tigris.org/update_1.8.x

3. 安装IvyDE插件,同上,输入地址 www.apache.org/dist/ant/ivyde/updatesite/

4.check out nutch 代码

file->new->project->SVN->

创建新的资源库位置: https://svn.apache.org/repos/asf/nutch/tags/release-1.7/

选中URL->Finish

在弹出的的New Project向导中选择JavaProject,  给项目起个名字,一路next, Finish


配置build path


在左侧PackageExplorer中项目名称文件夹上右键->Build Path -> Configure Build path

在 Source tag下 先remove 当前source, Add Folder, 选择 src/bin, src/java, src/test和src/testresources, 对于插件,需要选中src/plugin目录下的每一个插件目录下的src/java和src/test文件夹

在libraries tag下, add class folder-> 选中项目/conf

Add Library->IvyDE Managed Dependencies-> next ->Main->Ivy File -> Browse->ivy/ivy.xml->Finish, 如需要对插件进行调试,需要加入插件对应的ivy.xml

在Order and Export tag 下,把conf调到top的位置

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。 在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。 Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习NutchNutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值