索引技术
jollyjumper
一点记录
展开
-
Lucene4.6中LogMergePolicy解析
a MergePolicy determines the sequence of primitive merge operations.Whenever the segments in an index have been altered by IndexWriter, either the addition of a newly flushed segment, addition of原创 2014-01-03 18:39:41 · 2788 阅读 · 0 评论 -
Lucene中TokenStream,Tokenizer,TokenFilter,TokenStreamComponents与Analyzer
TokenStream extends AttributeSource implements Closeable:incrementToken,end,reset,closeTokenizer直接继承至TokenStream,其输入input是一个readerTokenFilter也直接继承TokenStream,但input是一个TokenStream。TokenStreamCo原创 2014-06-25 23:35:01 · 3593 阅读 · 0 评论 -
Lucene中如何判断是否使用cfs格式
IndexWriter会根据MergePolicy.useCompoundFile(SegmentInfos, SegmentInfoPerCommit)的返回结果判断一个段是否使用cfs格式。典型的逻辑查看TieredMergePolicy。原创 2014-09-20 22:27:40 · 1353 阅读 · 0 评论 -
Lucene41中的PackedInts
ackedInts中提供了两种format,一个是Packed,可按long或字节对齐,另一个是PACKED_SINGLE_BLOCK.可以按照不同overheadRatio来选择对应FormatAndBits,调用fastestFormatAndBits就可以。另外这个文件提供了ecoder,Encoder,Reader,ReaderIterator,Mutable等接口。实现了Muta原创 2014-09-21 17:44:49 · 1323 阅读 · 0 评论 -
GPU方法做倒排压缩和交集计算
之前一直想读这篇,今天读了一下,颇有收获:1.对文档按相似term聚类之后,delta较小,可以提高压缩率(similarity graph)1.GPU一般可以有几百个核,有shared memory和global memory,shared memory相当于寄存器的速度,global memory速度较慢2.有序数组上的搜索算法除了binary search还有interplati原创 2014-09-17 23:32:12 · 1584 阅读 · 0 评论 -
PForDelta的介绍论文
ttp://paperhub.s3.amazonaws.com/7558905a56f370848a04fa349dd8bb9d.pdfFOR(Frame-Of-Reference),PFor(Patched Frame-Of-Referene),cpu优化的guide line:1.减少control hazard,这个影响最大,cpu带分支预测功能在条件测试之前就先走,发现有错原创 2014-10-18 22:02:37 · 1791 阅读 · 0 评论 -
LuceneIndexFileDeleter会保留初始的commit
给实时索引添加了merge策略,持续更新时发现有做merge,但索引目录中的段数远远大于RealTimeIndexWriter中的段数,就是有些merge的段应该删除,目录中没有删除。而关闭searcher之后索引目录就变小了,段数也对了。定位之后发现IndexFileDeleter构造函数中有个checkpoint(segmentInfos,false),false会将第一个commit加入原创 2014-10-18 22:04:51 · 1159 阅读 · 0 评论 -
Lucene段合并的参数估计
使用lucene默认的TieredMergePolicy,索引更新时最大会占用多少硬盘,要看mergepolicy何时触发merge。从代码中可以看出,只有当eligible.size() >= allowedSegCountInt时才触发。eligible是大小不超过阈值的段集合,allowedSegCountInt计算如下,设segsPerTier为a,maxMergeAtOnce为b原创 2014-10-18 21:56:16 · 1917 阅读 · 0 评论