nutch1.2导入到eclipse

1.测试环境

nutch1.2

eclipse

Version:Indigo Service Release 1

Buildid: 20110916-0149

ubuntu11.10

jdk1.7

下载nutch1.2的源码http://nutch.apache.org/#24+September+2010+-+Apache+Nutch+1.2+Released

2.nutch导入到eclipse

首先建立一个java项目

File> New > Project > Java project > click Next

  • 给项目起名字(Nutch)

  • 去掉usedefault location前面的对勾,选择解压后的nutch源码目录


  • 单击Next,此时eclipse会扫描源码目录,单击完成。

  • conf目录添加到classpath(右击项目选择properties,然后选择JavaBuild Path,然后在右边框中选择Libraries,单击AddClass Folder...,选择conf目录)

  • 选择Orderand Export,找到刚才导入的conf目录,把它移动到顶部。(选中它并且单击top按钮)

  • eclipse应该已经导入了所有的java源文件,如果没有需要手动导入,将"src/java","src/test"plugin导入到Source中,将lib文件夹和plugin/lib中的的jar文件导入到Libraries

  • 单击"Source"设置defaultoutput folder "Nutch/bin/tmp_build".

  • 单击"Finish"

  • 不要将"build"目录添加到classpath

nutch的根目录下建立urls文件在里面输入(想要抓取的网站)

http://www.baidu.com/

修改conf目录下的nutch-site.xml.template文件如下

<?xmlversion="1.0"?>

<?xml-stylesheettype="text/xsl" href="configuration.xsl"?>

<!--Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>http.agent.name</name>

<value>test</value>

</property>

</configuration>

并将其重命名为nutch-site.xml

修改conf目录下的crawl-urlfilter.txt.template(如果不改会提示NoURLs to fetch - check your seed list and URL filters.

#accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

#skip everything else

-.

替换成

#accept hosts in MY.DOMAIN.NAME

+.

#skip everything else

-.

修改conf目录下的nutch-default.xml

"plugin.folders"属性的值改为"./src/plugin"(如果不改会报错)

3.eclipse中运行nutch

  • run as>java application

  • 设置主类org.apache.nutch.crawl.Crawl

  • 设置运行参数Arguments中的ProgramArgumentsurls-dir crawl -depth 3 -topN 50

    inVM arguments-Dhadoop.log.dir=logs-Dhadoop.log.file=hadoop.log


单击run,如果一切配置正确的话,此时nutch应该在忙碌的抓取着网页

原文http://wiki.apache.org/nutch/RunNutchInEclipse1.0

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值