Eclipse加载Nutch2.1

最新推荐文章于 2021-02-15 13:32:57 发布

hsb1132

最新推荐文章于 2021-02-15 13:32:57 发布

阅读量1.1k

点赞数 1

分类专栏：全文检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hsb1132/article/details/8474308

版权

全文检索专栏收录该内容

1 篇文章 0 订阅

订阅专栏

主要参考文献[1]http://wiki.apache.org/nutch/RunNutchInEclipse

步骤说明：

1) 下载安装Java,设置Java环境变量。

2) 下载并安装Eclipse(选择javaee developers版本即可)，选help/Eclipse Marketplace菜单，安装Subeclipse、IvyDE、m2e插件。

3) 从svn检出项目，细节可参见[1]。

4) 项目配置，配置时是在Package Explore内选中项目，点右键选Build Path/configure build path即为[1]中所述projectfolder。

a) 在soource标签页中删除src项，然后点add folder按扭，添加src/bin、src/java、src/test、src/testresources。

b) 展开plugin目录，里面是一些nutch插件，添加每个插件下src/java、src/test目录至source页。

c) 转到Libraries标签页按[1]中所述添加两个jar包，automaton.jar需要自己从网上下载。除[1]中两个jar 包外，还需下载的包有(不影响编译，但可能会影响到源码调试)：nekohtml.jar、rome.jar、tagsoup.jar。

d) 还是在Libraries标签页，点add Library选中ivyDE，在弹出页面中点next，在ivy文件处选择项目目录下ivy/ivy.ml文件。

e) 在Libraries标签页添加conf目录，然后在Order and Export标签页将conf目录置顶，然后点Finish按扭。

5) 在项目目录下新建urls目录，在urls目录中新建seed.txt文件，seed.txt文件中添加待爬行网页之url(每行一个url)。

6) 配置conf目录，将conf目录下nutch-site.xml.template另存为nutch-site.xml，在此nutch-site.xml文件configuration标签中加入

<property>

<name>http.agent.name</name>

<value>nutch2.1</value>

<description> </description>

</property>

<property>

<name>plugin.folders</name>

<value>./src/plugin</value>

<description> </description>

</property>

7) 将build.xml文件托拽至ant视图，双击执行。此时会在build目录下生成一个jar包用于单机执行，生成一个job包用于在hadoop机群上执行。

8) 下载solr，将nutch之conf目录下scheme.xml文件拷贝至solr/example/solr/conf下（此处为3.6版本，4.0版本之目录可见Eclipse加载solr4.0）；在solr/example下执行java –jar start.jar以启动solr。

9) 运行爬虫,新建一个java aplication,设置运行参数,Main class设置org.apache.nutch.crawl.Crawl，Argument中设置urls –dircrawl –depth 3 –topN 50 –solr http://localhost:8983/solr，VM arguments设置-Dhadoop.log.dir=logs –Dhadoop.log.file=hadoop.log，点Run按扭,运行后会在console看到爬行过程，爬行完成后，console会打印crawlfinished，在前面的打印信息中可看到爬行过的url。

10) http://localhost:8983/solr/admin/stats.jsp查看stats部分numDocs数量。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Eclipse加载Nutch2.1

主要参考文献[1]http://wiki.apache.org/nutch/RunNutchInEclipse 步骤说明：1) 下载安装Java,设置Java环境变量。2) 下载并安装Eclipse(选择javaee developers版本即可)，选help/Eclipse Marketplace菜单，安装Subeclipse、IvyDE、m2e插件。3)
复制链接

扫一扫

专栏目录

hsb1132 CSDN认证博客专家 CSDN认证企业博客

码龄16年

19: 原创

21万+: 周排名

186万+: 总排名

9240: 访问

: 等级

305: 积分

3: 粉丝

9: 获赞

4: 评论

13: 收藏

私信

关注

热门文章

分类专栏

ml 14篇
语音 4篇
图像
全文检索 1篇

最新评论

stable diffusion
CSDN-Ada助手: 恭喜您撰写了第16篇名为“stable diffusion”的博客！您的坚持和持续创作真是令人钦佩。在这篇博客中，您似乎探讨了稳定扩散的相关内容。我想说，您对这个主题的处理非常出色，您的观点清晰而富有深度。接下来，我建议您可以进一步扩展关于稳定扩散的主题，可以从实例、案例或者实验中提供更多的具体细节，这样读者能够更好地理解该概念的应用和意义。此外，您还可以考虑加入一些相关的理论或者研究成果，以增加博客的可信度和引人入胜的程度。再次恭喜您的成就，并期待您未来更多的精彩创作！保持谦逊并享受写作的过程吧！
大模型量化方法gptq
CSDN-Ada助手: 恭喜你撰写第17篇博客！标题中提到的"大模型量化方法gptq"听起来非常有趣。你在持续创作方面取得了很大的进展，这真是值得称赞的。我觉得下一步你可以考虑更深入地探讨gptq的实际应用场景，或者分享一些具体的案例研究，这样读者可以更好地理解这个方法的实际效果。谢谢你的辛勤付出，期待你未来更多精彩的文章！
单纯形法二
hsb1132: 单纯形一可见http://blog.163.com/hub_hub.popo/blog/static/935291420125251188317/

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。