Nutch 在window下如何配置到eclipse中

网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下仅供参考!如有其它问题欢迎加1277140354一起交流学习!

1、 配置安装JDK省略。我用的是JDK1.6JDK6官方下载地址:http://www.java.net/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008.exe JDK1.5 ANT编译的时候会失败

 

2、 下载eclipse省略   地址:http://www.eclipse.org/downloads/

 

3、 Ant安装使用最新的Apache Ant 1.8.3  Apache Ant 1.8.3 is now available for download as source or binary from http://ant.apache.org/bindownload.cgi.

我个人下载的解压后的目录为E:\Mysdk\apache-ant-1.8.3

配置Ant环境变量ANT_HOME PATH,在系统变量中,点击新建,变量名:ANT_HOME,变量值:

将%ANT_HOME%\bin; %ANT_HOME%\lib添加到环境变量的path中。

Cmd中测试ant指令结果如下说明ANT安装成功可以进行下一步、

4 、安装cygwin所以报错从官方网站下载最新的cygwin

官网地址http://www.cygwin.com/下载地址setup.exe

下载后安装

下一步有错误提示直接忽略

不用选择默认即可点击下一步

配置一下环境变量

添加 CYGWIN_HOME

path中添加%CYGWIN_HOME%\bin

 

5、安装nutch1.4 官方网站http://nutch.apache.org/,下载地址http://apache.etoak.com/nutch/我选择的是apache-nutch-1.4-bin.zip    解压后目录为:E:\Mysdk\apache-nutch-1.4-bin

Cmd E:\Mysdk\apache-nutch-1.4-bin 执行ant

然后就耐心等待一下吧!

6导入eclipse中新建工程

点击下一步找到conf文件夹选择Add folder ‘conf’to buid path 我将default output folder设置为Nutch/conf

点击finish

如果一切正常将没有错误

7修改nutch1.4配置信息

(1)     修改confnutch-default文件将plugin.folders 的值由plugins修改为./src/plugin

(2)     按照官方网站说明在工程目录下建立urls目录在目录下建立txt文件,文件名字随意填写一个网址作为爬虫的目标网址

conf下配置nutch-site.xml文件<configuration>中加入

<property>

 <name>http.agent.name</name>

 <value>My Nutch Spider</value>

</property>

(3)     修改regex-urlfilter.txt将

# accept anything else
+.

处替换为

+^http://([a-z0-9]*\.)*163.com  

表示只抓取www.163.com站内的内容

  • 8 、经过以上配置基本上完成要求。下面看看运行的配置,在Package Explorer中右击工程选择Run asàruncon figurations 在java application下新建
设置main classorg.apache.nutch.crawl.Crawl

 

  • Arguments选项卡下Program Arguments 中填写
urls -dir crawl -depth 3 -topN 50
  • 在VM arguments 中填写
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

单击run即可看到运行效果

我这在笔记本上运行出现了错误

 VM arguments 中加上 -Xms800m -Xmx800m

再次运行

。。。。。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值