lucene中ChainedFilter在findjar中的使用

最新推荐文章于 2019-05-11 17:32:48 发布

findmaven

最新推荐文章于 2019-05-11 17:32:48 发布

阅读量926

点赞数

分类专栏：互联网服务 lucene findjar DuplicateFilter 文章标签： lucene filter findjar

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/findjar/article/details/18913147

版权

互联网服务同时被 3 个专栏收录

16 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Lucene中使用ChainedFilter可以将多个过滤器Filter链接起来，而且可以在过滤器中执行AND、OR、XOR和ANDNOT的位操作。

在http://www.findmaven.net中就用到了这个ChainedFilter。查询结果出现多个版本的同个jar，页面显示只需要最高版本

IndexReader reader = IndexReader.open(dir);
IndexSearcher searcher = new IndexSearcher(reader);

Query query = new TermQuery(new Term("artifact", "spring-core")); //查询arttifact=spring-core
DuplicateFilter filter1 = new DuplicateFilter("fname");
DuplicateFilter filter2 = new DuplicateFilter("group"); //过滤掉artifact=spring-core的相同group

filter2.setKeepMode(DuplicateFilter.KM_USE_FIRST_OCCURRENCE);
ChainedFilter filters = new ChainedFilter(new Filter[] { filter1,filter2 }, ChainedFilter.AND); //两个filter做与操作

TopDocs docs = searcher.search(query, filters, Integer.MAX_VALUE);

那如何只显示最高版本，过滤掉低版本呢？可以在查询结果中按照版本高低排序

Sort sort = new Sort();
sort.setSort(new SortField("version", SortField.STRING, false));

然后就可以在DuplicateFilter("group")过滤掉除第一个之外的结果。

这里还需要介绍DuplicateFilter，其中有两个重要的参数

keepMode：

KM_USE_FIRST_OCCURRENCE表示重复的文档取第一篇

KM_USE_LAST_OCCURRENCE表示重复的文档取最后一篇

processingMode：

PM_FULL_VALIDATION是首先将bitset中所有文档都设为false，当出现同组重复文章的第一篇的时候，将其设为1

PM_FAST_INVALIDATION是首先将bitset中所有文档都设为true，除了同组重复文章的第一篇，其他的的全部设为0

在DuplicateFilter源码中默认使用KM_USE_LAST_OCCURRENCE

public DuplicateFilter(String fieldName){
this(fieldName, KM_USE_LAST_OCCURRENCE,PM_FULL_VALIDATION);
}

因为我们的sort是按照版本从高到低排序，我们只取第一个最高版本，所以我们必须指定

filter2.setKeepMode(DuplicateFilter.KM_USE_FIRST_OCCURRENCE);

http://www.findmaven.net显示结果如下：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene中ChainedFilter在findjar中的使用

Lucene中使用ChainedFilter可以将多个过滤器Filter链接起来，而且可以在过滤器中执行AND、OR、XOR和ANDNOT的位操作。在findmaven.net中就用到了这个ChainedFilter。查询结果出现多个版本的同个jar，页面显示只需要最高版本IndexReader reader = IndexReader.open(dir1);searcher =
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。