自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 nutch源码分析---7

nutch源码分析—solrindex“bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -linkdb crawl/linkdb/ -dir crawl/segments/ -filter -normalize”elif [ "$COMMAND" = "solrindex" ] ; then CLASS="or

2016-08-30 08:20:48 1047

原创 nutch源码分析---6

nutch源码分析—invertlinksbin/nutch invertlinks crawl/linkdb -dir crawl/segments

2016-08-27 08:09:22 770

原创 nutch源码分析---5

nutch源码分析—updatedborg.apache.nutch.crawl.CrawlDb public static void main(String[] args) throws Exception { int res = ToolRunner.run(NutchConfiguration.create(), new CrawlDb(), args); Syst

2016-08-25 11:39:37 618

原创 nutch源码分析---4

nutch源码分析—parsebin/nutch parse crawl/segments/*

2016-08-24 18:57:28 1961

原创 nutch源码分析---3

nutch源码分析—fetch

2016-08-22 09:23:17 722

原创 lucene源码分析---10

lucene源码分析—倒排索引的读过程SegmentTermsEnumFieldReaderseekExactfindTargetArcscanToFloorFrameloadBlockscanToTerm

2016-08-19 11:31:23 3139

原创 nutch源码分析---2

nutch源码分析—generate根据上一章的分析,“bin/nutch generate crawl/crawldb crawl/segments”这条命令最终会调用org.apache.nutch.crawl.Generator的main函数。Generator::main public static void main(String args[]) throws Except

2016-08-18 22:45:59 743

原创 nutch源码分析---1

nutch源码分析—inject本章开始分析nutch 1.12版本的源码,nutch在爬取网页时分为inject、generate、fetch、parse、updatedb五个步骤,本章先来看inject命令,nutch官网教程给出的实例如下, bin/nutch inject crawl/crawldb urls urls目录中的文件seed.txt包含了其实的url地址。 编译nutch

2016-08-17 12:06:45 1970

原创 lucene源码分析---9

lucene源码分析---倒排索引的写过程

2016-08-16 23:19:14 6072 1

原创 lucene源码分析---8

lucene源码分析—查询IndexSearch::search public TopDocs search(Query query, int n) throws IOException { return searchAfter(null, query, n); } public TopDocs searchAfter(ScoreDoc after, Query

2016-08-02 09:23:40 4801 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除