《Lucene in Action》第五章—高级主题

最新推荐文章于 2024-07-25 17:09:29 发布

源远流长

最新推荐文章于 2024-07-25 17:09:29 发布

阅读量1.6k

点赞数

分类专栏：技术学习笔记搜索引擎文章标签： lucene action filter query string search

技术学习笔记同时被 2 个专栏收录

183 篇文章 0 订阅

订阅专栏

搜索引擎

104 篇文章 0 订阅

订阅专栏

5.1 Filed的Cache 有时，存在这样的需求：快速的访问每个Document的Field，但是Lucene只是做了反向索引，因此这种正向索引非常耗时。 Stored fields是一种解决方法，但是也很慢，特别当量大的时候，占用很多内存。 Field的Cache能很好地解决这个问题。要求 Document必须只有一个Token！用法 float[] weights = FieldCache.DEFAULT.getFloats(reader, “weight”); 之后，使用weights[docID]即可访问对应的Field值。在第一次使用FieldCache后，Doc的数值会被缓存在内存中，直到Reader关闭。因此，它将消耗大量内存。尽量不要将“顶层Reader”传入FiledCache，防止因为reopoen导致的双倍内存消耗。 5.2 对检索结果排序默认情况下，Lucene将按照相关性倒序排序，即最相关的在前面。除了在前段进行排序外，本节讲述了一种Lucene提供的排序方法，注意：它将使用FieldCache，因此有可能导致大量内存消耗！需要排序的Field字段，必须使用Field.Index.NOT_ANALYZED!!! 在IndexSearcher中，提供了下属函数 search(Query, Filter, int, Sort) Sort即使排序器。除此之外，还必须额外开启它， IndexSearcher.IndexsetDefaultFieldSortScoring(doTrackScores,doMaxScore)，要排序至少前面这个doTrackScores为true。根据多字段排序 new SortField(“category”, SortField.STRING), SortField.FIELD_SCORE, new SortField(“pubmonth”, SortField.INT,true) ) 如上所示：使用SortField可以组合多个关键字来排序。最后一个参数可省略，即是否reverse（逆向）。一般来说，不用自己手写Sorter。更改String的排序规则默认String是采用compareTo比较的，也可以自己定义，即通过拓展Locale的方法来实现： SortField (String field, Locale locale) 5.5 SpanTermQuery（精确控制距离的查询） SpanTermQuery在查询的将基础上，提供了更为精确的距离控制，例如查询”President Obama”和”health care reform”距离相近的结果。如果传统的AND方法，可能查询出结果，但也许距离非常的远。 SpanTermQuery精确的控制需要全局的遍历Document中的索引。 SpanTermQuery共有6个子类，如下所示。 SpanFirstQuery：只匹配在Field开头出现的。 SpanNearQuery：匹配距离相近的。 SpanNotQuery：匹配不重叠的。 FieldMaskingSpanQuery：多Field查询 SpanOrQuery：SpanQuery的合集。这些子类都继承自SpanTermQuery，这个类除了TermQuery的功能外，还记录了Position的信息。使用这些子类的方法是 1.创建SpanTermQuery， 2.作为参数传入SpanFirstQuery的构造函数中 SpanFirstQuery 例如，需要查询”the quick brown fox jump over a lazy dog”开头的brown SpanTermQuery brown = new SpanTermQuery(“f”,”brown”); SpanFirstQuery sfq = new SpanFirstQuery(brown, 2); 2代表从开头起2个单词内。例如这个例子中，2是不能查询到的，3才行。 SpansNearQuery SpanQuery[] quick_brown_dog = new SpanQuery[]{quick, brown, dog};//quick brown 和dog都是SpanTermQuery SpanNearQuery snq = new SpanNearQuery(quick_brown_dog, 0, true); //要求quick brown dog是连续的，显然查询不到 snq = new SpanNearQuery(quick_brown_dog, 5, true); //5，刚刚好因为brown和dog间差了5个！再看一下第三个参数boolean的作用，表示是否按照数组中定义的顺序（order）来例如下面的例子，仍然对于”the quick brown fox jump over a lazy dog” snq = new SpanNearQuery(new SpanQuery[]{lazy, fox}, 3, false); 虽然lazy和fox之间距离是负的（顺序反了），但是如果指定order为false，则刚好可以查询到。 SpanNotQuery SpanNotQuery将去除那些两个SpanQuery相互重叠的结果，更准确的说，是去除“中间重叠挖掉的那部分”。例如有两个Document：”the quick brown fox jump over a lazy dog”和”the quick red fox jumps over the sleepy cat” SpanNearQuery quick_fox = new SpanNearQuery(new SpanQuery[]{quick, fox}, 1, true); //基础的SpanQuery，默认匹配2个Document //匹配的这两个结果的中间重叠部分为：red/brown SpanNotQuery quick_fox_dog = new SpanNotQuery(quick_fox, dog);//因为dog不是red或者brown，所以仍为两个 SpanNotQuery no_quick_red_fox = new SpanNotQuery(quick_fox, red); //现在只剩下brown那个doc了。这种Query经常用于连接的时候。 SpanOrQuery 用途是：组合SpanQuery的结果，用法如下： SpanOrQuery or = new SpanOrQuery(new SpanQuery[]{qf_near_ld, qf_near_sc}); qf_near_ld和qf_near_sc都是SpanNearQuery。遗憾的是，目前lucene core尚不支持从QueryParser中解析并生成各种SpanQuery。 5.6 对搜索结果进行过滤（Filtering a search） Filter用于对搜索结果进行过滤，可能是处于安全考虑（Doc的访问有权限），或者纯粹的再搜索需求。 TermRangeFilter 过滤Filed中在一定范围内的Term，用于String类型，字符请用NumericRangeFilter。 Filter filter = new TermRangeFilter(“title2″, “d”, “j”, true, true); //field是title2，在d*和j*之间，最后两个true表示包含大写和小写的Term。 Filter支持半开区间，例如： filter = new TermRangeFilter(“modified”, null, jan31, false, true);//则左边没有下限。或者用static方法构造： filter = TermRangeFilter.Less(“modified”, jan31); 最后再search()的时候传入即可。 NumericRangeFilter Filter filter = NumericRangeFilter.newIntRange(“pubmonth”,201001,201006,true, true); //过滤数字如上所示，只支持static方法创建，需要按照Long，int等分别创建。 FieldCacheRangeFilter FieldCacheRangeFilter与TermRangeFilter和NumericRangeFilter的功能几乎一样，但是使用了Field内置的Cache，因此有些时候具有更好的性能。 Filter filter = FieldCacheRangeFilter.newStringRange(“title2″, “d”, “j”, true, true); filter = FieldCacheRangeFilter.newIntRange(“pubmonth”, 201001, 201006, true, true); FieldCacheTermsFilter 基于Term的过滤器，根据Filed和Term进行过滤。例如有一个Country的Field，用户可下拉选择结果Doc中部分含指定国家的Doc。 Filter filter = new FieldCacheTermsFilter(“category”, new String[] {“/health/alternative/chinese”,”/technology/computers/ai”,”/technology/computers/programming”}); Doc的名为category的Field中，含有任意上述一个都会被接受。在这种情况下，Doc的每个Field只能有1个Term！即必须是唯一确定的。如果需要对多Term的Field进行过滤，可以使用TermsFilter，在contri中。 QueryWrapperFilter QueryWrapperFilter可以将任意的Query包装成Filter，用于过滤。 TermQuery categoryQuery = new TermQuery(new Term(“category”, “/philosophy/eastern”)); Filter categoryFilter = new QueryWrapperFilter(categoryQuery); SpanQueryFilter 与QueryWrapperFilter相似，SpanQueryFilter将SpanQuery包装起来，用作Filter。 panQuery categoryQuery = new SpanTermQuery(new Term(“category”, “/philosophy/eastern”)); Filter categoryFilter = new SpanQueryFilter(categoryQuery); 一般情况下，QueryWrapperFilter就足够了。保证安全性的Filter 假设不同的Doc被不同Owner所有，要在前段根据用户进行过滤，则一种简单的策略是：为每个Doc创建一个名为Owner的Filed，然后对它使用QueryWrapperFilter对最终的搜索结果按照Filter进行过滤（结合前端的信息）。 6.4节提供了一个更高级的方法解决这个问题。使用BooleanQuery用作Filter 区别是，Boost的数值会不同，因为BooleanQuery会考虑所有的Doc的数值，而Filter不会。 PrefixFilter 可以对Term只为XX前缀的Doc进行过滤。 Filter prefixFilter = new PrefixFilter(new Term(“category”, “/technology/computers”)); 使用Cache以获得更好的性能所有的Filter都可以被包装以支持Cache的形式。 CachingWrapperFilter cachingFilter; cachingFilter = new CachingWrapperFilter(filter); 对Filter进行Filter FilteredDocIdSet是一个抽象类，通过重载其match方法来决定某个docID是否应该被过滤掉。一般用于动态检查的时候使用，可自己拓展逻辑。其他非Core的Filter 除了core的Filter之外，在contri中叶有其他的Filter，例如ChainedFilter：将Filter进行组合，允许复杂的链Filter。 6.4节介绍了如何自定义Filter。 5.7 自定义函数更高Score org.apache.lucene.search.function包中定义了一系列函数，可用于对查询结果的相关性Score进行更改。各种自定义函数 ValueSourceQuery是所有自定义函数的基类。最基本的实现类是FieldScoreQuery，它从Field中静态地提取Score数值。即给Doc添加如下Field，注意必须是not analyzerd not norms（保证是数值类型） doc.add(new Field(“score”,”42″,Field.Store.NO,Field.Index.NOT_ANALYZED_NO_NORMS)); 在查询的时候： Query q = new FieldScoreQuery(“score”, FieldScoreQuery.Type.BYTE); 后面这个FieldScoreQuery.Type也可以选择INT、LONG等等，根据实际需要来。 CustomScoreQuery可以与其他Query相结合。例如下面这个更改默认参数的例子： Query q = new QueryParser(Version.LUCENE_30,”content”,new StandardAnalyzer(Version.LUCENE_30)).parse(“the green hat”); FieldScoreQuery qf = new FieldScoreQuery(“score”,FieldScoreQuery.Type.BYTE); CustomScoreQuery customQ = new CustomScoreQuery(q, qf) { public CustomScoreProvider getCustomScoreProvider(IndexReader r) { return new CustomScoreProvider(r) { public float customScore(int doc,float subQueryScore,float valSrcScore) { return (float) (Math.sqrt(subQueryScore) * valSrcScore); } }; } }; 在这个构造函数customScore中，subQueryScore是Query默认的Score(CustomScoreQuery的q传入)，valSrcScore是构造参数传入的FieldScoreQuery的静态Score(CustomScoreQuery的qf传入)。定义函数来Boost最近更改的Doc CustomScoreQuery可以设定自己的BI逻辑，对Doc进行不同的Boost。具体的例子见书吧。 5.8 同时搜索多个Index 在一个搜索引擎中可能存在多个Index，例如每个月生成一次Index，这样可以按照月份搜索。可以使用MultiSearcher进行搜索。 IndexSearcher[] searchers = new IndexSearcher[2]; searchers[0] = new IndexSearcher(aTOmDirectory); searchers[1] = new IndexSearcher(nTOzDirectory); MultiSearcher searcher = new MultiSearcher(searchers); TermRangeQuery query = new TermRangeQuery(“animal”,”h”,”t”,true, true); TopDocs hits = searcher.search(query, 10); ParallelMultiSearcher支持多线程同时搜索。 5.9 使用TermVetor搜索“相似书籍” 若创建Index的时候，指定保存TermVector，则可以使用TermVector来搜索类似结果，例如，搜索类似主题的： TermFreqVector vector = reader.getTermFreqVector(id, “subject”); BooleanQuery subjectQuery = new BooleanQuery(); for (String vecTerm : vector.getTerms()) { TermQuery tq = new TermQuery( new Term(“subject”, vecTerm)); subjectQuery.add(tq, BooleanClause.Occur.SHOULD); } 5.10 使用FieldLoader读取Field 读取Filed需要耗费大量的资源，其实一个Doc中的众多Field不必在每次search的时候都全部读出！我们可以使用FieldLoader来更改这个策略：可以自己拓展FieldSelector，并覆盖下面这个抽象方法： FieldSelectorResult accept(String fieldName); 它根据传入的fieldName来给出具体策略结果，FieldSelectorResult有下述几种情况： LOAD：直接读取 LAZY_LOAD：直到Field.stringValue() 或者Field.binaryValue() 的时候再读取 NO_LOAD：不读取这个Field的 LOAD_AND_BREAK：读取这个Field并终止，不再读取其他Field LOAD_FOR_MERGE：在合并segment的时候，使用内置的Field。 SIZE：只读取Field的大小，并添加一个4字节的SIZE的Field SIZE_AND_BREAK：与SIZE类似，但只读取当前的SIZE，不再读取其他的。 Lucene的Core也提供了一些具体实现类： LoadFirstFieldSelector：只读取第一个1个Field MapFieldSelector：传入一个Map，Map指定了哪些Field你想读取，哪些你不想读取 SetBasedFieldSelector：传入两个Set，第一个Set是你想读取的，第二个是Lazy-Load读取的。需要注意的是，FiledSelector本身也有开销，要在实际测试之后再谨慎使用！ 5.11 杀死慢速搜索可以使用TimeLimitingCollector来结束过慢的搜索，超时后抛出TimeExceededException异常。 TopScoreDocCollector topDocs = TopScoreDocCollector.create(10, false); Collector collector = new TimeLimitingCollector(topDocs,1000); searcher.search(q, collector); 这个方法也有一定缺陷，即不一定准确，而且会拖慢搜索进度。

源远流长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Lucene in Action》第五章—高级主题

5.1 Filed的Cache有时，存在这样的需求：快速的访问每个Document的Field，但是Lucene只是做了反向索引，因此这种正向索引非常耗时。Stored fields是一种解决方法，但是也很慢，特别当量大的时候，占用很多内存。Field的Cache能很好地解决这个问题。要求Document必须只有一个Token！用法float[] weights = FieldCache.DEFAULT.getFloats(reader, “weig
复制链接

扫一扫

专栏目录