- 博客(10)
- 收藏
- 关注
原创 nutch源码分析---7
nutch源码分析—solrindex“bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -linkdb crawl/linkdb/ -dir crawl/segments/ -filter -normalize”elif [ "$COMMAND" = "solrindex" ] ; then CLASS="or
2016-08-30 08:20:48 1047
原创 nutch源码分析---6
nutch源码分析—invertlinksbin/nutch invertlinks crawl/linkdb -dir crawl/segments
2016-08-27 08:09:22 770
原创 nutch源码分析---5
nutch源码分析—updatedborg.apache.nutch.crawl.CrawlDb public static void main(String[] args) throws Exception { int res = ToolRunner.run(NutchConfiguration.create(), new CrawlDb(), args); Syst
2016-08-25 11:39:37 618
原创 lucene源码分析---10
lucene源码分析—倒排索引的读过程SegmentTermsEnumFieldReaderseekExactfindTargetArcscanToFloorFrameloadBlockscanToTerm
2016-08-19 11:31:23 3139
原创 nutch源码分析---2
nutch源码分析—generate根据上一章的分析,“bin/nutch generate crawl/crawldb crawl/segments”这条命令最终会调用org.apache.nutch.crawl.Generator的main函数。Generator::main public static void main(String args[]) throws Except
2016-08-18 22:45:59 743
原创 nutch源码分析---1
nutch源码分析—inject本章开始分析nutch 1.12版本的源码,nutch在爬取网页时分为inject、generate、fetch、parse、updatedb五个步骤,本章先来看inject命令,nutch官网教程给出的实例如下, bin/nutch inject crawl/crawldb urls urls目录中的文件seed.txt包含了其实的url地址。 编译nutch
2016-08-17 12:06:45 1970
原创 lucene源码分析---8
lucene源码分析—查询IndexSearch::search public TopDocs search(Query query, int n) throws IOException { return searchAfter(null, query, n); } public TopDocs searchAfter(ScoreDoc after, Query
2016-08-02 09:23:40 4801 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人