二次开发nutch(所有的都是在nutch2.3.1版本)首先要把项目导入到eclipse中,本博客参考了nutch wiki后,自己亲自导入成功。
一、开始之前
设置Nutch运行到Eclipse中可能会非常棘手,如果你在Eclipse中编辑Nutch,但是从命令行运行,这样做调试会更快。 然而,能够在Eclipse中调试Nutch非常有用,并且在应用和测试补丁时也非常有用。
1、准备工作
- 需要安装ant
- 安装最新的eclipse,确保能够链接EclipseMarketplace,因为构建过程需要联网安装eclipse插件
- 如果不能联网,或者网络较慢,可以直接下载eclipse的ivyIDE插件和m2e插件
二、build Nutch
1.下载nutch2.3.1源码 2.编辑conf/nutch-site.xml(以hbase作为存储) D:/NSH/doc/EclipseWork/nutch2.3.1/apache-nutch-2.3.1是项目的主目录 ``` storage.data.store.class org.apache.gora.hbase.store.HBaseStore Default class for storing data plugin.folders D:/NSH/doc/EclipseWork/nutch2.3.1/apache-nutch-2.3.1/build/plugins http.agent.name MySplider ``` 3.编辑ivy/ivy.xml 这一行注释去掉,相应的信息不用变。 ``` ``` 4.编辑conf/gora.properties 添加一下配置信息 ``` gora.datastore.default=org.apache.gora.hbase.store.HBaseStore ``` 5.在cmd窗口进入到项目的目录中执行命令:ant eclipse 等待一段时间,大概需要十几分钟(时间不一定,网络好的话会很快,否则很慢,因为要从网络上下载很多依赖包)。
三、导入到eclipse
1、点击“File” -> “Import...” 2、如图所示 ![这里写图片描述](https://img-blog.csdn.net/20180414180543874?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbWFsaWdlYmF6aQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) 3、点击“Finish” 等待一会,eclipse需要一段时间来构建项目 4、在项目文件夹上右击,选择“Build Path” -> “Configure Build Path” ![这里写图片描述](https://img-blog.csdn.net/20180414181013066?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbWFsaWdlYmF6aQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) 然后按照图片所示操作 ![这里写图片描述](https://img-blog.csdn.net/20180414181414985?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbWFsaWdlYmF6aQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) 然后等待一段时间,eclipse重新构造
四、创建 Eclipse launcher
这个地方就要说到nutch2.x的重要步骤 ``` 1.inject—>2.generate—>3.fetch—>4.parse—>5.update ``` eclipse要分别构造这几个启动器,首先创建inject操作; 1、在项目文件夹上右击,选择“Run As” ->“Run Configurations” ![这里写图片描述](https://img-blog.csdn.net/20180414182542374?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbWFsaWdlYmF6aQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) 注意:3必须是项目的根目录;4是nutch inject 类,这个地方要求熟悉nutch源码;5可以任取。 接着设置程序参数,设置种子seed.txt的路径和日志 ![这里写图片描述](https://img-blog.csdn.net/20180414183054382?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbWFsaWdlYmF6aQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) 其他几个步骤同样的操作