主要参考文献[1]http://wiki.apache.org/nutch/RunNutchInEclipse
步骤说明:
1) 下载安装Java,设置Java环境变量。
2) 下载并安装Eclipse(选择javaee developers版本即可),选help/Eclipse Marketplace菜单,安装Subeclipse、IvyDE、m2e插件。
3) 从svn检出项目,细节可参见[1]。
4) 项目配置,配置时是在Package Explore内选中项目,点右键选Build Path/configure build path即为[1]中所述projectfolder。
a) 在soource标签页中删除src项,然后点add folder按扭,添加src/bin、src/java、src/test、src/testresources。
b) 展开plugin目录,里面是一些nutch插件,添加每个插件下src/java、src/test目录至source页。
c) 转到Libraries标签页按[1]中所述添加两个jar包,automaton.jar需要自己从网上下载。除[1]中两个jar 包外,还需下载的包有(不影响编译,但可能会影响到源码调试):nekohtml.jar、rome.jar、tagsoup.jar。
d) 还是在Libraries标签页,点add Library选中ivyDE,在弹出页面中点next,在ivy文件处选择项目目录下ivy/ivy.ml文件。
e) 在Libraries标签页添加conf目录,然后在Order and Export标签页将conf目录置顶,然后点Finish按扭。
5) 在项目目录下新建urls目录,在urls目录中新建seed.txt文件,seed.txt文件中添加待爬行网页之url(每行一个url)。
6) 配置conf目录,将conf目录下nutch-site.xml.template另存为nutch-site.xml,在此nutch-site.xml文件configuration标签中加入
<property>
<name>http.agent.name</name>
<value>nutch2.1</value>
<description> </description>
</property>
<property>
<name>plugin.folders</name>
<value>./src/plugin</value>
<description> </description>
</property>
7) 将build.xml文件托拽至ant视图,双击执行。此时会在build目录下生成一个jar包用于单机执行,生成一个job包用于在hadoop机群上执行。
8) 下载solr,将nutch之conf目录下scheme.xml文件拷贝至solr/example/solr/conf下(此处为3.6版本,4.0版本之目录可见Eclipse加载solr4.0);在solr/example下执行java –jar start.jar以启动solr。
9) 运行爬虫,新建一个java aplication,设置运行参数,Main class设置org.apache.nutch.crawl.Crawl,Argument中设置urls –dircrawl –depth 3 –topN 50 –solr http://localhost:8983/solr,VM arguments设置-Dhadoop.log.dir=logs –Dhadoop.log.file=hadoop.log,点Run按扭,运行后会在console看到爬行过程,爬行完成后,console会打印crawlfinished,在前面的打印信息中可看到爬行过的url。
10) http://localhost:8983/solr/admin/stats.jsp查看stats部分numDocs数量。