Eclipse加载Nutch2.1

主要参考文献[1]http://wiki.apache.org/nutch/RunNutchInEclipse

   步骤说明:

1)      下载安装Java,设置Java环境变量。

2)      下载并安装Eclipse(选择javaee developers版本即可),选help/Eclipse Marketplace菜单,安装Subeclipse、IvyDE、m2e插件。

3)      从svn检出项目,细节可参见[1]。

4)      项目配置,配置时是在Package Explore内选中项目,点右键选Build Path/configure build path即为[1]中所述projectfolder。

a)      在soource标签页中删除src项,然后点add  folder按扭,添加src/bin、src/java、src/test、src/testresources。

b)      展开plugin目录,里面是一些nutch插件,添加每个插件下src/java、src/test目录至source页。

c)      转到Libraries标签页按[1]中所述添加两个jar包,automaton.jar需要自己从网上下载。除[1]中两个jar   包外,还需下载的包有(不影响编译,但可能会影响到源码调试):nekohtml.jar、rome.jar、tagsoup.jar。

d)      还是在Libraries标签页,点add Library选中ivyDE,在弹出页面中点next,在ivy文件处选择项目目录下ivy/ivy.ml文件。

e)      在Libraries标签页添加conf目录,然后在Order and Export标签页将conf目录置顶,然后点Finish按扭。

5)      在项目目录下新建urls目录,在urls目录中新建seed.txt文件,seed.txt文件中添加待爬行网页之url(每行一个url)。

6)      配置conf目录,将conf目录下nutch-site.xml.template另存为nutch-site.xml,在此nutch-site.xml文件configuration标签中加入

<property>

  <name>http.agent.name</name>

  <value>nutch2.1</value>

  <description> </description>

</property>

<property>

  <name>plugin.folders</name>

  <value>./src/plugin</value>

  <description> </description>

</property>

7)      将build.xml文件托拽至ant视图,双击执行。此时会在build目录下生成一个jar包用于单机执行,生成一个job包用于在hadoop机群上执行。

8)      下载solr,将nutch之conf目录下scheme.xml文件拷贝至solr/example/solr/conf下(此处为3.6版本,4.0版本之目录可见Eclipse加载solr4.0);在solr/example下执行java –jar start.jar以启动solr。

9)      运行爬虫,新建一个java aplication,设置运行参数,Main class设置org.apache.nutch.crawl.Crawl,Argument中设置urls –dircrawl –depth 3 –topN 50 –solr http://localhost:8983/solr,VM arguments设置-Dhadoop.log.dir=logs –Dhadoop.log.file=hadoop.log,点Run按扭,运行后会在console看到爬行过程,爬行完成后,console会打印crawlfinished,在前面的打印信息中可看到爬行过的url。

10)  http://localhost:8983/solr/admin/stats.jsp查看stats部分numDocs数量。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断路器保护灵敏度校验整改及剩余电流监测试点应用站用交流系统断

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值