01_NUTCH
文章平均质量分 67
cadany
这个作者很懒,什么都没留下…
展开
-
nutch脚本
刚看完crawl脚本大致理解nutch的执行过程后,回过头来看看nutch脚本都能干些什么。原创 2015-03-22 15:07:58 · 342 阅读 · 0 评论 -
如何开始NUTCH
1、下载 2、编译 3、运行 3.1 注入种子 $ bin/nutch inject Usage: InjectorJob [-crawlId ] 3.2 爬去 $ bin/crawl Missing seedDir : crawl 3.3 拆看爬去结果 $hbase shell $scan 'crawlId_webpage'原创 2015-03-21 11:26:40 · 461 阅读 · 0 评论 -
nutch的一些基础整理
一、关于配置文件: nutch-default.xml:爬虫的默认配置。在${nutch_home}/conf目录。 nutch-site.xml:理论上是nutch-default.xml的覆盖。 core-default.xml, hdfs-default.xml, mapred-default.xml:用于配置 Hadoop,与 hadoop-core-xxx.jar 相关。 m原创 2015-03-22 18:18:01 · 445 阅读 · 0 评论