2016年08月_二侠

原创 nutch源码分析---7

nutch源码分析—solrindex“bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -linkdb crawl/linkdb/ -dir crawl/segments/ -filter -normalize”elif [ "$COMMAND" = "solrindex" ] ; then CLASS="or

2016-08-30 08:20:48 1047

原创 nutch源码分析---6

nutch源码分析—invertlinksbin/nutch invertlinks crawl/linkdb -dir crawl/segments

2016-08-27 08:09:22 770

原创 nutch源码分析---5

nutch源码分析—updatedborg.apache.nutch.crawl.CrawlDb public static void main(String[] args) throws Exception { int res = ToolRunner.run(NutchConfiguration.create(), new CrawlDb(), args); Syst

2016-08-25 11:39:37 618

原创 nutch源码分析---4

nutch源码分析—parsebin/nutch parse crawl/segments/*

2016-08-24 18:57:28 1961

原创 nutch源码分析---3

nutch源码分析—fetch

2016-08-22 09:23:17 722

原创 lucene源码分析---10

lucene源码分析—倒排索引的读过程SegmentTermsEnumFieldReaderseekExactfindTargetArcscanToFloorFrameloadBlockscanToTerm

2016-08-19 11:31:23 3139

原创 nutch源码分析---2

nutch源码分析—generate根据上一章的分析，“bin/nutch generate crawl/crawldb crawl/segments”这条命令最终会调用org.apache.nutch.crawl.Generator的main函数。Generator::main public static void main(String args[]) throws Except

2016-08-18 22:45:59 743

原创 nutch源码分析---1

nutch源码分析—inject本章开始分析nutch 1.12版本的源码，nutch在爬取网页时分为inject、generate、fetch、parse、updatedb五个步骤，本章先来看inject命令，nutch官网教程给出的实例如下， bin/nutch inject crawl/crawldb urls urls目录中的文件seed.txt包含了其实的url地址。编译nutch

2016-08-17 12:06:45 1970

原创 lucene源码分析---9

lucene源码分析---倒排索引的写过程

2016-08-16 23:19:14 6072 1

原创 lucene源码分析---8

lucene源码分析—查询IndexSearch::search public TopDocs search(Query query, int n) throws IOException { return searchAfter(null, query, n); } public TopDocs searchAfter(ScoreDoc after, Query

2016-08-02 09:23:40 4801 1

conansonic的博客