Lucene创建索引及搜索
Lucene的索引数据可以为文件或者内存的形式建立,内存形式的可以同步到文件形式,索引中主要存放了文档字段或者字段分词得到的拆分词,每个词后存放了文档索引号及出现次数,文档字段是否需要存储分词则直接在 filed创建时指定.
关键类
org.apache.lucene.store.Directory
lucene所有操作文件都基于这个接口,可以提供不同形式的实现,可能是拓展分布式用的到
org.apache.lucene.index.IndexWriterConfig
配置writer的版本及分词
org.apache.lucene.index.IndexWriter
通过 directory 和 config 对象, 生成一个可以写文档的工具
org.apache.lucene.document.Document
writer写入级reader独处的核心数据,包含元素主要为字段
org.apache.lucene.document.Field.Field
4.3或者更早就被禁用掉了,配置是否对字段值 存储 索引 分词, 字段名 及字段值皆为字符串
字段值支持 IO 读取流, 该种情况下缺省不存储, 要自定义的话可以使用 COMMONIO 将流缓存为String
往索引中添加docment
IndexWriter indexWriter = null;
try {
Directory directory = FSDirectory.open(new File(
"E:/lucene43/index01"));
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_43,
new StandardAnalyzer(Version.LUCENE_43));
indexWriter = new IndexWriter(directory, config);
File fileDir = new File("E:/lucene43/txt");
for (File file : fileDir.listFiles()) {
Document document = new Document();
document.add(new Field("content", new FileReader(file)));
document.add(new Field("fileName", file.getName(),
Field.Store.YES, Field.Index.NOT_ANALYZED));
document.add(new Field("filePath", file.getAbsolutePath(),
Field.Store.YES, Field.Index.NOT_ANALYZED));
indexWriter.addDocument(document);
}
}
往索引中查询document
查询是基于seracher的, 该对象通过 term构造出来的query查询出一个 文档<配>积分 的数组, 元素中文档索引可以在searcher中的 doc方法中得到完整的docment
seracher本身通过reader构造, reader则通过 IndexReader.open(directory);静态方法操作 Directory得到
Directory directory = FSDirectory.open(new File(
"E:/lucene43/index01"));
IndexReader reader = IndexReader.open(directory);
IndexSearcher searcher = new IndexSearcher(reader);
TermQuery query = new TermQuery(new Term("content", "java"));
TopDocs docs = searcher.search(query, 2);
for (ScoreDoc scoreDoc : docs.scoreDocs) {
Document document = searcher.doc(scoreDoc.doc);
System.out.println(document.get("fileName"));
System.out.println(document.get("content"));
}