nutch-1.12源码分析
二侠
这个作者很懒,什么都没留下…
展开
-
nutch源码分析---1
nutch源码分析—inject本章开始分析nutch 1.12版本的源码,nutch在爬取网页时分为inject、generate、fetch、parse、updatedb五个步骤,本章先来看inject命令,nutch官网教程给出的实例如下, bin/nutch inject crawl/crawldb urls urls目录中的文件seed.txt包含了其实的url地址。 编译nutch原创 2016-08-17 12:06:45 · 1935 阅读 · 0 评论 -
nutch源码分析---2
nutch源码分析—generate 根据上一章的分析,“bin/nutch generate crawl/crawldb crawl/segments”这条命令最终会调用org.apache.nutch.crawl.Generator的main函数。 Generator::main public static void main(String args[]) throws Except原创 2016-08-18 22:45:59 · 728 阅读 · 0 评论 -
nutch源码分析---7
nutch源码分析—solrindex “bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -linkdb crawl/linkdb/ -dir crawl/segments/ -filter -normalize” elif [ "$COMMAND" = "solrindex" ] ; then CLASS="or原创 2016-08-30 08:20:48 · 1029 阅读 · 0 评论 -
nutch源码分析---3
nutch源码分析—fetch原创 2016-08-22 09:23:17 · 709 阅读 · 0 评论 -
nutch源码分析---4
nutch源码分析—parse bin/nutch parse crawl/segments/*原创 2016-08-24 18:57:28 · 1935 阅读 · 0 评论 -
nutch源码分析---5
nutch源码分析—updatedb org.apache.nutch.crawl.CrawlDb public static void main(String[] args) throws Exception { int res = ToolRunner.run(NutchConfiguration.create(), new CrawlDb(), args); Syst原创 2016-08-25 11:39:37 · 606 阅读 · 0 评论 -
nutch源码分析---6
nutch源码分析—invertlinks bin/nutch invertlinks crawl/linkdb -dir crawl/segments原创 2016-08-27 08:09:22 · 757 阅读 · 0 评论