nutch1.2导入到eclipse

最新推荐文章于 2018-04-14 18:45:55 发布

chlstar

最新推荐文章于 2018-04-14 18:45:55 发布

阅读量1.1k

点赞数

分类专栏： Nutch 文章标签： eclipse properties java application ubuntu service

3 篇文章 0 订阅

订阅专栏

1.测试环境

nutch1.2

eclipse

Version:Indigo Service Release 1

Buildid: 20110916-0149

ubuntu11.10

jdk1.7

2.将nutch导入到eclipse

首先建立一个java项目

File> New > Project > Java project > click Next

单击Next,此时eclipse会扫描源码目录，单击完成。
将conf目录添加到classpath（右击项目选择properties，然后选择JavaBuild Path，然后在右边框中选择Libraries，单击AddClass Folder...，选择conf目录）
选择Orderand Export，找到刚才导入的conf目录，把它移动到顶部。（选中它并且单击top按钮）
eclipse应该已经导入了所有的java源文件，如果没有需要手动导入，将"src/java","src/test"和plugin导入到Source中，将lib文件夹和plugin/lib中的的jar文件导入到Libraries。
单击"Source"设置defaultoutput folder 为"Nutch/bin/tmp_build".
单击"Finish"
不要将"build"目录添加到classpath

在nutch的根目录下建立urls文件在里面输入(想要抓取的网站)

http://www.baidu.com/

修改conf目录下的nutch-site.xml.template文件如下

<?xmlversion="1.0"?>

<?xml-stylesheettype="text/xsl" href="configuration.xsl"?>

<name>http.agent.name</name>

</property>

</configuration>

并将其重命名为nutch-site.xml

修改conf目录下的crawl-urlfilter.txt.template（如果不改会提示NoURLs to fetch - check your seed list and URL filters.）

将

#accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

#skip everything else

替换成

#accept hosts in MY.DOMAIN.NAME

#skip everything else

修改conf目录下的nutch-default.xml

将"plugin.folders"属性的值改为"./src/plugin"（如果不改会报错）

3.在eclipse中运行nutch

run as>java application
设置主类org.apache.nutch.crawl.Crawl
设置运行参数Arguments中的ProgramArguments，urls-dir crawl -depth 3 -topN 50

inVM arguments，-Dhadoop.log.dir=logs-Dhadoop.log.file=hadoop.log