搜索中要到的类不多:
package org.apache.lucene.searcher;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.indexer.Indexer;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
/**
* 用来搜索出索引的文件中的内容
* @author Administrator
*
*/
public class Searcher {
public static void main(String[] args) throws Exception {
if(args.length != 3)
{
throw new Exception("Usage: java"+Indexer.class.getName()
+"<index dir> <string> <query>");
}
//存放索引的目录
String indexDir = args[0];
//查询部分,比如在内容中查询,在目录中查询
String s = args[1];
//要查询字符串
String query = args[2];
search(indexDir,s,query);
}
/**
* 根据填入的字符串来搜索出所需要的条件
* @param indexDir 存放索引的目录
* @param s 在索引的哪个部分查询
* @param query 查询哪个字符串
* @throws IOException
* @throws ParseException
*/
private static void search(String indexDir, String s, String query) throws IOException, ParseException {
//打开存放索引的目录
Directory dir = FSDirectory.open(new File(indexDir));
IndexReader reader = IndexReader.open(dir);
IndexSearcher is = new IndexSearcher(reader);
//参数为Lucene版本,要查询的部分,标准分词器
QueryParser parser = new QueryParser(Version.LUCENE_35, s, new StandardAnalyzer(Version.LUCENE_35));
Query q = parser.parse(query);
long start = System.currentTimeMillis();
//获得查询结果,每页显示10个记录
TopDocs hits = is.search(q, 10);
System.out.println("Found"+hits.totalHits);
long end = System.currentTimeMillis();
System.out.println("search use "+(end-start)+" milliseconds");
for(int i=0; i<hits.scoreDocs.length; i++)
{
//ScoreDoc从hits中获取一条记录
ScoreDoc scoreDoc = hits.scoreDocs[i];
//Returns the stored fields of document i
//scoreDoc:匹配的文档id
Document document = is.doc(scoreDoc.doc);
System.out.println(document.get("filename"));
}
//关闭搜索
is.close();
}
}
在项目中,一般reader做成单例,那么就需要改动代码:
IndexSearch is = getSearcher();
is.close();
/**
* 把reader设置为单例,通常项目周期中都只有一个reader,可以由多个writer
*/
public IndexSearcher getSearcher()
{
try {
if(reader == null)
{
reader = IndexReader.open(directory);
}
else
{
IndexReader tr = IndexReader.openIfChanged(reader);
if(tr != null)
{
reader.close();
reader = tr;
}
}
return new IndexSearcher(reader);
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
实验结果:
Found3
search use 14 milliseconds
D:\abc\lucene\abc.txt
D:\abc\lucene\hello.txt
D:\abc\lucene\car.txt
以上类中用到的一些类的介绍:
IndexSearcher来搜索IndexWriter建立的索引,当做一个类以只读方式打开一个索引。
Term由一系列字符串元素组成
Query是一个通用抽象父类,它包含了一些工具方法,其中有一个方法为setBoost
(float)确保Lucene搜索的结果同用户搜索关键字更匹配
TermQuery是Query的一个子类,它用来匹配包含特殊值的文档
TopDocs为搜索后返回的结果
这个类显示了N个排序在前面的结果