Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA

这篇教程指导如何在Linux环境下,从下载Nutch 1.9源码开始,通过安装JDK和Apache Ant,使用IDE导入工程,设置爬虫文件,并最终执行完整的网页抓取流程。
摘要由CSDN通过智能技术生成

在使用本教程之前,需要满足条件:

1)有一台Linux或Linux虚拟机

2)安装JDK(推荐1.7)

3)安装Apache Ant


下载Nutch源码:

推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip


安装IDE:

推荐使用Intellij或者Netbeans,如果用eclipse也可以,不推荐。
Intellij官方下载地址: http://www.jetbrains.com/idea/download/

转换:

Nutch源码是用ant进行构建的,需要转换成eclipse工程才可以导入IDE正确使用,Intellij和Netbeans都可以支持ecilpse工程。
解压下载的apache-nutch-1.9-src.zip,得到文件夹apache-nutch-1.9。
在执行转换之前,我们先修改一下ivy中的一个源,将它改为开源中国的镜像,否则转换的过程会非常缓慢。(ant源码中并没有附带依赖jar包,ivy负责从网上自动下载jar包)。
修改 apache-nutch-1.9文件夹中的ivy/ivysettings.xml:



找到:
<property name="repo.maven.org"
      value="http://repo1.maven.org/maven2/"
      override="false"/>



将value修改为 http://maven.oschina.net/content/groups/public/
修改后:
<property name="repo.maven.org"
      value="http://maven.oschina.net/content/groups/public/"
      override="false"/>


保存并退出,保证当前目录为apache-nutch-1.9,执行命令:
ant eclipse -verbose
然后耐心等待,这个过程ant会根据ivy从中心仓库下载各种依赖jar包,可能要十几分钟。


</
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值