看Nutch的搭建问题,以前一直是网上找资料,后来人说,想要成为一个优秀的构架师需要学会主动学习,也就是看帮助文档,所以我也开始学着看NutchTutrial。照着他的步骤来竟然遇到一个错误,想不通啊。
错误信息:Command crawl is deprecated, please use bin/crawl instead
后来在网上找了一下资料,说是官网上说的,1.8和2.2版本之后的Nutch不再支持bin/nutch crawl命令,而改用bin/crawl来使用。一下是别人的解决方案,我也还没试,明天再看。
(版本是个操蛋的问题,自己的学习能力也好不够,官网上已经有说的自己也没去看)
----------------------分割线--------------------------
上面的问题今天早上起来看了一下,基本算是解决了
1.直接执行bin/crawl 然后系统会出现个提示
Usage:crawl <seedDir> <crawlDir> <solrURL> <numberOfRounds>
参数说明
:seedDir:种子url的目录地址
crawlDir:保存爬取文件的目录solrURL:solr的地址(没有则为空)
2.根据这个,用的一个命令,系统开始执行起来。
bin/crawl urls/seed.txt cr