lucene中的query1

构建各种Lucene Query (1)(2008-12-12 12:13:04)转载标签:it 分类:自然语言处理 搜索流程中的第二步就是构建一个Query。下面就来介绍Query及其构建。 当用户输入一个关键字,搜索引擎接收到后,并不是立刻就将它放入后台开始进行关键字的检索,而应当首先对这个关键字进行一定的分析和处理,使之成为一种后台可以理解的形式,只有这样,才能提高检索的效率,同时检索出更加有效的结果。那么,在Lucene中,这种处理,其实就是构建一个Query对象。 就Query对象本身言,它只是Lucene的search包中的一个抽象类,这个抽象类有许多子类,代表了不同类型的检索。如常见的TermQuery就是将一个简单的关键字进行封装后的对象,类似的还有BooleanQuery,即布尔型的查找。 IndexSearcher对象的search方法中总是需要一个Query对象(或是Query子类的对象),本节就来介绍各种Query类。 11.4.1 按词条搜索—TermQuery TermQuery是最简单、也是最常用的Query。TermQuery可以理解成为“词条搜索”,在搜索引擎中最基本的搜索就是在索引中搜索某一词条,而TermQuery就是用来完成这项工作的。 在Lucene中词条是最基本的搜索单位,从本质上来讲一个词条其实就是一个名/值对。只不过这个“名”是字段名,而“值”则表示字段中所包含的某个关键字。 要使用TermQuery进行搜索首先需要构造一个Term对象,示例代码如下: Term aTerm = new Term("contents", "java"); 然后使用aTerm对象为参数来构造一个TermQuery对象,代码设置如下: Query query = new TermQuery(aTerm); 这样所有在“contents”字段中包含有“java”的文档都会在使用TermQuery进行查询时作为符合查询条件的结果返回。 下面就通过代码11.4来介绍TermQuery的具体实现过程。 代码11.4 TermQueryTest.java package ch11; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.Term; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.TermQuery; public class TermQueryTest { public static void main(String[] args) throws Exception { //生成Document对象 Document doc1 = new Document(); //添加“name”字段的内容 doc1.add(Field.Text("name", "word1 word2 word3")); //添加“title”字段的内容 doc1.add(Field.Keyword("title", "doc1")); //生成索引书写器 IndexWriter writer = new IndexWriter("c://index", new StandardAnalyzer(), true); //将文档添加到索引中 writer.addDocument(doc1); //关闭索引 writer.close(); //生成查询对象query Query query = null; //生成hits结果对象,保存返回的检索结果 Hits hits = null; //生成检索器 IndexSearcher searcher = new IndexSearcher("c://index"); // 构造一个TermQuery对象 query = new TermQuery(new Term("name","word1")); //开始检索,并返回检索结果到hits中 hits = searcher.search(query); //输出检索结果中的相关信息 printResult(hits, "word1"); // 再次构造一个TermQuery对象,只不过查询的字段变成了"title" query = new TermQuery(new Term("title","doc1")); //开始第二次检索,并返回检索结果到hits中 hits = searcher.search(query); //输出检索结果中的相关信息 printResult(hits, "doc1"); } public static void printResult(Hits hits, String key) throws Exception { System.out.println("查找 /"" + key + "/" :"); if (hits != null) { if (hits.length() == 0) { System.out.println("没有找到任何结果"); } else { System.out.println("找到" + hits.length() + "个结果"); for (int i = 0; i < hits.length(); i++) { Document d = hits.doc(i); String dname = d.get("title"); System.out.print(dname + " "); } System.out.println(); System.out.println(); } } } } 在代码11.4中使用TermQuery进行检索的运行结果如图11-8所示。 注意:字段值是区分大小写的,因此在查询时必须注意大小写的匹配。 从图11-8中可以看出,代码11.4两次分别以“word1”和“doc1”为关键字进行检索,并且都只得到了一个检索结果。 在代码11.4中通过构建TermQuery的对象,两次完成了对关键字的查找。两次查找过程中不同的是,第一次构建的TermQuery是查找“name”这个字段,而第二次构建的TermQuery则查找的是“title”这个字段。 11.4.2 “与或”搜索—BooleanQuery BooleanQuery也是实际开发过程中经常使用的一种Query。它其实是一个组合的Query,在使用时可以把各种Query对象添加进去并标明它们之间的逻辑关系。在本节中所讨论的所有查询类型都可以使用BooleanQuery综合起来。BooleanQuery本身来讲是一个布尔子句的容器,它提供了专门的API方法往其中添加子句,并标明它们之间的关系,以下代码为BooleanQuery提供的用于添加子句的API接口: public void add(Query query, boolean required, boolean prohibited); 注意:BooleanQuery是可以嵌套的,一个BooleanQuery可以成为另一个BooleanQuery的条件子句。 下面以11.5为例来介绍进行“与”操作的布尔型查询。 代码11.5 BooleanQueryTest1.java package ch11; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.Term; import org.apache.lucene.search.BooleanQuery; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.TermQuery; public class BooleanQueryTest1 { public static void main (String [] args) throws Exception { //生成新的Document对象 Document doc1 = new Document(); doc1.add(Field.Text("name", "word1 word2 word3")); doc1.add(Field.Keyword("title", "doc1")); Document doc2 = new Document(); doc2.add(Field.Text("name", "word1 word4 word5")); doc2.add(Field.Keyword("title", "doc2")); Document doc3 = new Document(); doc3.add(Field.Text("name", "word1 word2 word6")); doc3.add(Field.Keyword("title", "doc3")); //生成索引书写器 IndexWriter writer = new IndexWriter("c://index", new StandardAnalyzer(), true); //添加到索引中 writer.addDocument(doc1); writer.addDocument(doc2); writer.addDocument(doc3); writer.close(); Query query1 = null; Query query2 = null; BooleanQuery query = null; Hits hits = null; //生成IndexSearcher对象 IndexSearcher searcher = new IndexSearcher("c://index"); query1 = new TermQuery(new Term("name","word1")); query2 = new TermQuery(new Term("name","word2")); // 构造一个布尔查询 query = new BooleanQuery(); // 添加两个子查询 query.add(query1, true, false); query.add(query2, true, false); hits = searcher.search(query); printResult(hits, "word1和word2"); } public static void printResult(Hits hits, String key) throws Exception { System.out.println("查找 /"" + key + "/" :"); if (hits != null) { if (hits.length() == 0) { System.out.println("没有找到任何结果"); } else { System.out.println("找到" + hits.length() + "个结果"); for (int i = 0; i < hits.length(); i++) { Document d = hits.doc(i); String dname = d.get("title"); System.out.print(dname + " "); } System.out.println(); System.out.println(); } } } } 代码11.5首先构造了两个TermQuery,然后构造了一个BooleanQuery的对象,并将两个TermQuery当成它的查询子句加入Boolean查询中。 再来看一下BooleanQuery的add方法,除了它的第一个参数外,它还有另外两个布尔型的参数。第1个参数的意思是当前所加入的查询子句是否必须满足,第2个参数的意思是当前所加入的查询子句是否不需要满足。这样,当这两个参数分别选择true和false时,会有4种不同的组合。 true &false:表明当前加入的子句是必须要满足的。 false&true:表明当前加入的子句是不可以被满足的。 false&false:表明当前加入的子句是可选的。 true&true:错误的情况。 由前面的示例可以看出由于加入的两个子句都选用了true&false的组合,因此它们两个都是需要被满足的,也就构成了实际上的“与”关系,运行效果如图11-9所示。 如果是要进行“或”运算,则可按如下代码来构建查询子句: query.add(query1, false, false); query.add(query2, false, false); 代码的运行效果如图11-10所示。 图11-9 BooleanQuery测试1 图11-10 BooleanQuery测试2 由于布尔型的查询是可以嵌套的,因此可以表示多种条件下的组合。不过,如果子句的数目太多,可能会导致查找效率的降低。因此,Lucene给出了一个默认的限制,就是布尔型Query的子句数目不能超过1024。 11.4.3 在某一范围内搜索—RangeQuery 有时用户会需要一种在一个范围内查找某个文档,比如查找某一时间段内的所有文档,此时,Lucene提供了一种名为RangeQuery的类来满足这种需求。 RangeQuery表示在某范围内的搜索条件,实现从一个开始词条到一个结束词条的搜索功能,在查询时“开始词条”和“结束词条”可以被包含在内也可以不被包含在内。它的具体用法如下: RangeQuery query = new RangeQuery(begin, end, included); 在参数列表中,最后一个boolean值表示是否包含边界条件本身,即当其为TRUE时,表示包含边界值,用字符可以表示为“[begin TO end]”;当其为FALSE时,表示不包含边界值,用字符可以表示为“{begin TO end}”。 下面通过代码11.6介绍RangeQuery使用的方法。 代码11.6 RangeQueryTest.java package ch11; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.Term; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.RangeQuery; public class RangeQueryTest { public static void main (String [] args) throws Exception { //生成文档对象,下同 Document doc1 = new Document(); //添加“time”字段中的内容,下同 doc1.add(Field.Text("time", "200001")); //添加“title”字段中的内容,下同 doc1.add(Field.Keyword("title", "doc1")); Document doc2 = new Document(); doc2.add(Field.Text("time", "200002")); doc2.add(Field.Keyword("title", "doc2")); Document doc3 = new Document(); doc3.add(Field.Text("time", "200003")); doc3.add(Field.Keyword("title", "doc3")); Document doc4 = new Document(); doc4.add(Field.Text("time", "200004")); doc4.add(Field.Keyword("title", "doc4")); Document doc5 = new Document(); doc5.add(Field.Text("time", "200005")); doc5.add(Field.Keyword("title", "doc5")); //生成索引书写器 IndexWriter writer = new IndexWriter("c://index", new StandardAnalyzer(), true); //设置为混合索引格式 writer.setUseCompoundFile(true); //将文档对象添加到索引中 writer.addDocument(doc1); writer.addDocument(doc2); writer.addDocument(doc3); writer.addDocument(doc4); writer.addDocument(doc5); //关闭索引 writer.close(); //生成索引搜索器 IndexSearcher searcher = new IndexSearcher("c://index"); //构造词条 Term beginTime = new Term("time","200001"); Term endTime = new Term("time","200005"); //用于保存检索结果 Hits hits = null; //生成RangeQuery对象,初始化为null RangeQuery query = null; //构造RangeQuery对象,检索条件中不包含边界值 query = new RangeQuery(beginTime, endTime, false); //开始检索,并返回检索结果 hits = searcher.search(query); //输出检索结果的相关信息 printResult(hits, "从200001~200005的文档,不包括200001和200005"); //再构造一个RangeQuery对象,检索条件中包含边界值 query = new RangeQuery(beginTime, endTime, true); //开始第二次检索 hits = searcher.search(query); //输出检索结果的相关信息 printResult(hits, "从200001~200005的文档,包括200001和200005"); } public static void printResult(Hits hits, String key) throws Exception {System.out.println("查找 /"" + key + "/" :"); if (hits != null) { if (hits.length() == 0) { System.out.println("没有找到任何结果"); } else { System.out.print("找到"); for (int i = 0; i < hits.length(); i++) { Document d = hits.doc(i); String dname = d.get("title"); System.out.print(dname + " " ); } System.out.println(); System.out.println(); } } } } 在上述代码中首先构造了两个Term词条,然后构造了一个RangeQuery对象。在初始化RangeQuery对象的时候,使用构造的两个Term词条作为RangeQuery构造函数的参数。前面已经说过,RangeQuery的构造函数中的两个参数分别称为“开始词条”和“结束词条”,它的含义也就是查找介于这两者之间的所有Document。 构建的Document的“time”字段值均介于200001~200005之间,其检索结果如图11-11所示。 图11-11 RangeQuery测试结果 从图11-11中可以看出,在代码11.6中使用RangeQuery共进行了两次检索,第一次的检索条件中不包括边界值,第二次的检索条件中包括边界值。 从代码11.6和图11-11中可以看出,第1次使用FALSE参数构造的RangeQuery对象不包括2个边界值,因此只返回3个Document,而第2次使用TRUE参数构造的RangeQuery则包括2个边界值,因此将5个Document全部返回了。 11.4.4 使用前缀搜索—PrefixQuery PrefixQuery就是使用前缀来进行查找的。通常情况下,首先定义一个词条Term。该词条包含要查找的字段名以及关键字的前缀,然后通过该词条构造一个PrefixQuery对象,就可以进行前缀查找了。 下面以代码11.7为例来介绍使用PrefixQuery进行检索的运行过程。 代码11.7 PrefixQueryTest.java package ch11; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.Term; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.PrefixQuery; import org.apache.lucene.search.RangeQuery; public class PrefixQueryTest { public static void main(String[] args) throws Exception { //生成Document对象,下同 Document doc1 = new Document(); //添加“name”字段的内容,下同 doc1.add(Field.Text("name", "David")); //添加“title”字段的内容,下同 doc1.add(Field.Keyword("title", "doc1")); Document doc2 = new Document(); doc2.add(Field.Text("name", "Darwen")); doc2.add(Field.Keyword("title", "doc2")); Document doc3 = new Document(); doc3.add(Field.Text("name", "Smith")); doc3.add(Field.Keyword("title", "doc3")); Document doc4 = new Document(); doc4.add(Field.Text("name", "Smart")); doc4.add(Field.Keyword("title", "doc4")); //生成索引书写器 IndexWriter writer = new IndexWriter("c://index", new StandardAnalyzer(), true); //设置为混合索引模式 writer.setUseCompoundFile(true); //依次将文档添加到索引中 writer.addDocument(doc1); writer.addDocument(doc2); writer.addDocument(doc3); writer.addDocument(doc4); //关闭索引书写器 writer.close(); //生成索引搜索器对象 IndexSearcher searcher = new IndexSearcher("c://index"); //构造词条 Term pre1 = new Term("name", "Da"); Term pre2 = new Term("name", "da"); Term pre3 = new Term("name", "sm"); //用于保存检索结果 Hits hits = null; //生成PrefixQuery类型的对象,初始化为null PrefixQuery query = null; query = new PrefixQuery(pre1); //开始第一次检索,并返回检索结果 hits = searcher.search(query); //输出相应的检索结果 printResult(hits, "前缀为'Da'的文档"); query = new PrefixQuery(pre2); //开始第二次检索,并返回检索结果 hits = searcher.search(query); //输出相应的检索结果 printResult(hits, "前缀为'da'的文档"); query = new PrefixQuery(pre3); //开始第二次检索,并返回检索结果 hits = searcher.search(query); //输出相应的检索结果 printResult(hits, "前缀为'sm'的文档"); } public static void printResult(Hits hits, String key) throws Exception {System.out.println("查找 /"" + key + "/" :"); if (hits != null) { if (hits.length() == 0) { System.out.println("没有找到任何结果"); System.out.println(); } else { System.out.print("找到"); for (int i = 0; i < hits.length(); i++) { //取得文档 Document d = hits.doc(i); //取得“title”字段的内容 String dname = d.get("title"); System.out.print(dname + " "); } System.out.println(); System.out.println(); } } } } 在上述代码中,首先构造了4个不同的Document。每个Document都有一个名为“name”的字段,其中存储了人物的名称。然后,代码构建了3个不同的词条,分别为“Da”、“da”和“sm”,可以看到,它们正好都是“name”字段中关键字的前缀。 代码的运行结果如图11-12所示。 从图11-12中可以看出,使用PrefixQuery共进行了3次检索,关键字分别为“Da”、“da”和“sm”,返回的检索结果情况在图中已经有明确的说明。不过,如果使用“Da”作为关键字会没有任何的检索结果,而使用“da”就有检索结果,这个问题将在后面作详细介绍。 从代码11.7和图11-12中可以看出,“da”前缀和“sm”前缀都顺利地找到了它们所在的文档,可是为什么与文档中关键字大小写一致的“Da”却没有找到呢?这是因为Lucene的标准分析器在进行分词过滤时将所有的关键字一律转成了小写,所以才会出现这样的结果。这也是开发者应当引起注意的地方。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值