使用Lucene对建立的索引进行搜索

最新推荐文章于 2019-04-22 20:04:00 发布

jiang617325814

最新推荐文章于 2019-04-22 20:04:00 发布

阅读量588

点赞数

分类专栏：检索索引 Lucene 文章标签： lucene string query exception search null

本文链接：https://blog.csdn.net/jiang617325814/article/details/7688133

版权

Lucene 同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

索引

2 篇文章 0 订阅

订阅专栏

检索

1 篇文章 0 订阅

订阅专栏

搜索中要到的类不多：

package org.apache.lucene.searcher;

import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.indexer.Indexer;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

/**
 * 用来搜索出索引的文件中的内容
 * @author Administrator
 *
 */
public class Searcher {

	public static void main(String[] args) throws Exception {
		if(args.length != 3)
		{
			throw new Exception("Usage: java"+Indexer.class.getName()
					+"<index dir> <string> <query>");
		}
		//存放索引的目录
		String indexDir = args[0];
		//查询部分，比如在内容中查询，在目录中查询
		String s = args[1];
		//要查询字符串
		String query = args[2];
		search(indexDir,s,query);
	}

	/**
	 * 根据填入的字符串来搜索出所需要的条件
	 * @param indexDir 存放索引的目录
	 * @param s 在索引的哪个部分查询
	 * @param query 查询哪个字符串
	 * @throws IOException
	 * @throws ParseException
	 */
	private static void search(String indexDir, String s, String query) throws IOException, ParseException {
		//打开存放索引的目录
		Directory dir = FSDirectory.open(new File(indexDir));
		IndexReader reader = IndexReader.open(dir);
		IndexSearcher is = new IndexSearcher(reader);
		//参数为Lucene版本，要查询的部分，标准分词器
		QueryParser parser = new QueryParser(Version.LUCENE_35, s, new StandardAnalyzer(Version.LUCENE_35));
		Query q = parser.parse(query);
		long start = System.currentTimeMillis();
		//获得查询结果，每页显示10个记录
		TopDocs hits = is.search(q, 10);
		System.out.println("Found"+hits.totalHits);
		long end = System.currentTimeMillis();
		System.out.println("search use "+(end-start)+" milliseconds");
		for(int i=0; i<hits.scoreDocs.length; i++)
		{
			//ScoreDoc从hits中获取一条记录
			ScoreDoc scoreDoc = hits.scoreDocs[i];
			//Returns the stored fields of document i
			//scoreDoc:匹配的文档id
			Document document = is.doc(scoreDoc.doc);
			System.out.println(document.get("filename"));
		}
		//关闭搜索
		is.close();
	}
}

在项目中，一般reader做成单例，那么就需要改动代码：

IndexSearch is = getSearcher();
is.close();

/**
 * 把reader设置为单例，通常项目周期中都只有一个reader,可以由多个writer
 */
public IndexSearcher getSearcher()
{
	try {
		if(reader == null)
		{
			reader = IndexReader.open(directory);
		}
		else
		{
			IndexReader tr = IndexReader.openIfChanged(reader);
			if(tr != null)
			{
				reader.close();
				reader = tr;
			}
		}
		return new IndexSearcher(reader);
	} catch (CorruptIndexException e) {
		e.printStackTrace();
	} catch (IOException e) {
		e.printStackTrace();
	}
	return null;
}

实验结果：

Found3
search use 14 milliseconds
D:\abc\lucene\abc.txt
D:\abc\lucene\hello.txt
D:\abc\lucene\car.txt

以上类中用到的一些类的介绍：
IndexSearcher来搜索IndexWriter建立的索引，当做一个类以只读方式打开一个索引。
Term由一系列字符串元素组成
Query是一个通用抽象父类，它包含了一些工具方法，其中有一个方法为setBoost
（float）确保Lucene搜索的结果同用户搜索关键字更匹配
TermQuery是Query的一个子类，它用来匹配包含特殊值的文档
TopDocs为搜索后返回的结果
这个类显示了N个排序在前面的结果