Lucene
nepshi
这个作者很懒,什么都没留下…
展开
-
Lucene对于多个IndexReader中全局DF的处理
研究了一段时间的Nutch,对于索引的分布式构建有几点困惑: 1. 分布式索引如何处理全局信息,比如每个分布式索引中的term有自己的DF,在对多个索引进行搜索时,是否会合并这些DF。这个问题通过下面的验证得到了解决。 2. 会不会有同一个文档出现在多个索引中的情况。 提出这个问题主要是刚开始对Hadoop的机制不了解,通过设置Reducer可以保证同一个网页不会被处理两次,也就是不会在两个...原创 2011-11-08 10:29:50 · 223 阅读 · 0 评论 -
Lucene索引文件
如何产生一个segment? 当IndexWriter执行commit时,会产生一个segment。 下述文件每个segment一个: .fnm:存储一个segment中Field个数,Field名称,Field的属性(是否索引、存储etc) .fdt:存储一个segment中,每个document中所有Field的域号、Field属性(是否分词、是否二进制、是否压缩etc),Fi...原创 2011-11-14 09:08:44 · 96 阅读 · 0 评论