lucene的facet原理

最新推荐文章于 2019-02-28 20:28:06 发布

qiaotiantian

最新推荐文章于 2019-02-28 20:28:06 发布

阅读量1.3k

点赞数

分类专栏：检索引擎文章标签：大数据 lucene

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiaotiantian/article/details/38398835

版权

检索引擎专栏收录该内容

4 篇文章 0 订阅

订阅专栏

利用lucene开发了一个文档检索系统，大量用到了facet功能，发现系统性能出现问题，就想研究一下lucene的facet功能是如何实现了，网络参考资料甚少，google有被某d屏蔽，就阅读了facet部分功能代码，似乎有所启发，担心忘记，记录如下：

IndexWriterindexWriter = new IndexWriter(indexDir, new IndexWriterConfig(FacetExamples.EXAMPLES_VER,

newWhitespaceAnalyzer(FacetExamples.EXAMPLES_VER)));

// Writes facet ords to a separatedirectory from the main index

DirectoryTaxonomyWriter taxoWriter = newDirectoryTaxonomyWriter(taxoDir);

Document doc = new Document();

doc.add(newFacetField("Author", "Bob"));

doc.add(new FacetField("PublishDate", "2010", "10", "15"));

indexWriter.addDocument(config.build(taxoWriter, doc));

doc = new Document();

doc.add(new FacetField("Author","Lisa"));

doc.add(new FacetField("PublishDate", "2010", "10", "20"));

indexWriter.addDocument(config.build(taxoWriter, doc));

doc = new Document();

doc.add(new FacetField("Author","Lisa"));

doc.add(new FacetField("PublishDate", "2012", "1", "1"));

indexWriter.addDocument(config.build(taxoWriter, doc));

doc = new Document();

doc.add(new FacetField("Author","Susan"));

doc.add(new FacetField("PublishDate", "2012", "1", "7"));

indexWriter.addDocument(config.build(taxoWriter, doc));

doc = new Document();

doc.add(new FacetField("Author","Frank"));

doc.add(new FacetField("PublishDate", "1999", "5", "5"));

indexWriter.addDocument(config.build(taxoWriter, doc));

facet的统计结果信息事先按照一棵树结构进行存放。

facet统计情况事先构建一棵树进行存储；每个节点包含parent，child，silbing信息；

child存放最后一个child的值，silbing存放左兄弟的值。

facet的信息单独存放在一片索引区域。

0:根

1：author

2：authorbob

3：Publish Date

7：authorLisa

4：Publish Date2010

5：Publish Date201010

6：Publish Date20101015

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Parent:-1 0 1 0 3 4 5 1 5 3 9 10 1 10 1 3 15 16

Child: 3 14 -1 15 5 8 -1 -1-1 10 13 -1 -1 -1 -1 16 17 -1

Silbing:-1 -1 -1 1 -1 -1 -1 2 6 4 -1 -1 7 11 12 9 -1 -1

文档索引时存放doc.add(newBinaryDocValuesField(indexFieldName, new BytesRef(bytes, 0, upto)))）;（出现在此类FacetsConfig）一个字段，这个字段存放出现上面构造的节点信息，例如第一个文档存放2,6信息，实际写入的为2,4，猜想是按照偏离存放的。

利用如此巧妙的构造就实现了按照字段的统计。

检索时得到命中结果，存放到一个bitset中，即所有文档的01值，出现为1，不出现为0.

然后遍历这个bitset，读取 BinaryDocValuesField存放的值，那个节点出现了就让这个节点的值+1，如此就实现了对检索结果的实时统计。

和我猜想一致大数据量做统计是会耗费一些性能，但是不如我所想的那样大。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
lucene的facet原理

利用lucene开发了一个文档检索系统，大量用到了facet功能，发现系统性能出现问题，就想研究一下lucene的facet功能是如何实现了，网络参考资料甚少，google有被某d屏蔽，就阅读了facet部分功能代码，似乎有所启发，担心忘记，记录如下： IndexWriterindexWriter = new IndexWriter(indexDir, new
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。