1.Lucene 是Apache开源的全文检索的工具包 创建索引 查询索引
2.遇到问题? 文件名 及文件内容 顺序扫描法 全文检索
3.什么是全文检索? 这种先创建索引 再对索引进行搜索的过程叫全文检索
4.索引是什么? 非结构数据中提取一个数据、并重新组合的过程叫索引
入门程序
磁盘文件为原始文件
创建索引
第一步:获取文件
第二步:创建文档对象
第三步:创建分析器
第四步:保存索引及文档到索引库
搜索索引
第一步:用户接口(百度)
第二步:创建Query查询对象(KV)域名:值
第三步:执行查询
第四步:渲染
public class FirstLucene {
//创建索引
@Test
public void testIndex() throws Exception {
// 第一步:创建一个java工程,并导入jar包。
// 第二步:创建一个indexwriter对象。
Directory directory= FSDirectory.open(new File("F:\\temp\\index"));
Analyzer analyzer=new StandardAnalyzer(); //官方推荐
IndexWriterConfig config=new IndexWriterConfig(Version.LATEST, analyzer);
IndexWriter indexwriter=new IndexWriter(directory, config);
// 1)指定索引库的存放位置Directory对象
// 2)指定一个分析器,对文档内容进行分析。
// 第三步:创建field对象,将field添加到document对象中。
File f=new File("F:\\Lucene$Solr\\Searchsource");
File[] listFiles = f.listFiles();
for (File file : listFiles) {
// 第三步:创建document对象。
Document document=new Document();
//文件名称
String file_name = file.getName();
Field filenameField=new TextField("fileName", file_name, Store.YES);
//文件大小
long file_sizeOf = FileUtils.sizeOf(file);
Field fileSizeField=new LongField("fileSize", file_sizeOf, Store.YES);
//文件路径
String file_path = file.getPath();
Field filePathField=new StoredField("filePath", file_path);
//文件内容
String file_content = FileUtils.readFileToString(file);
Field fileContentField=new TextField("fileContent", file_content, Store.YES);
document.add(filenameField);
document.add(fileSizeField);
document.add(filePathField);
document.add(fileContentField);
// 第四步:使用indexwriter对象将document对象写入索引库,此过程进行索引创建。并将索引和document对象写入索引库。
indexwriter.addDocument(document);
}
// 第五步:关闭IndexWriter对象。
indexwriter.close();
}
// 搜索索引
@Test
public void testSearch() throws Exception {
// 第一步:创建一个Directory对象,也就是索引库存放的位置。
Directory directory=FSDirectory.open(new File("F:\\temp\\index")); //磁盘硬盘内存保存索引
// 第二步:创建一个indexReader对象,需要指定Directory对象
IndexReader indexReader=DirectoryReader.open(directory);
// 第三步:创建一个indexsearcher对象,需要指定IndexReader对象
IndexSearcher indexsearcher=new IndexSearcher(indexReader);
// 第四步:创建一个TermQuery对象,指定查询的域和查询的关键词
Query query =new TermQuery(new Term("fileName", "spring"));
// 第五步:执行查询
TopDocs topDocs = indexsearcher.search(query, 2);
// 第六步:返回查询结果。遍历查询结果并输出
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
for (ScoreDoc scoreDoc : scoreDocs) {
int doc=scoreDoc.doc;
Document document = indexsearcher.doc(doc);
//文件名称
String fileName = document.get("fileName");
System.out.println(fileName);
//文件内容
String fileContent = document.get("fileContent");
System.out.println(fileContent);
//文件路径
String filePath = document.get("filePath");
System.out.println(filePath);
//文件大小
String fileSize = document.get("fileSize");
System.out.println(fileSize);
}
// 第七步:关闭IndexReader对象
indexReader.close();
}
// 查看标准分析器的分词效果
@Test
public void testTokenStream() throws Exception {
// 创建一个标准分析器对象
// Analyzer analyzer = new StandardAnalyzer();
// Analyzer analyzer = new CJKAnalyzer();
// Analyzer analyzer = new SmartChineseAnalyzer();
Analyzer analyzer = new IKAnalyzer();
// 获得tokenStream对象
// 第一个参数:域名,可以随便给一个
// 第二个参数:要分析的文本内容
// TokenStream tokenStream = analyzer.tokenStream("test",
// "The Spring Framework provides a comprehensive programming and configuration model.");
TokenStream tokenStream = analyzer.tokenStream("test",
"高富帅可以用二维表结构来逻辑表达实现的数据");
// 添加一个引用,可以获得每个关键词
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
// 添加一个偏移量的引用,记录了关键词的开始位置以及结束位置
OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
// 将指针调整到列表的头部
tokenStream.reset();
// 遍历关键词列表,通过incrementToken方法判断列表是否结束
while (tokenStream.incrementToken()) {
// 关键词的起始位置
System.out.println("start->" + offsetAttribute.startOffset());
// 取关键词
System.out.println(charTermAttribute);
// 结束位置
System.out.println("end->" + offsetAttribute.endOffset());
}
tokenStream.close();
}
}
分析器(中文分析器)
标准
中日韩
SmartChineseAnalyzer
IKAnalyzer(扩展、停止)
使用IK分析器
第一步:导入IK.jar
第二步:复制IKAnalyzer.cfg.xml
第三步:复制stopword.dic(停止:不需要分析的去掉)
复制ext.dic(扩展:里面的字分析成一组词)
全放在classpath(src)下
IKAnalyzer.cfg.xml:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
Lucene的维护
添加
删除
修改
查询
高级查询
第一个:全查询 MatchAllDocsQuery
:
第二个:TermQuery 精准查询
第三个:区间查询(根据数值)L
第四个:组合查询BooleadQuery 多个 AND OR NOT Occur.MUST MUST_NOT SHOULD
解析进行查询
//条件解析的对象查询
@Test
public void testQueryParser() throws Exception {
IndexSearcher indexSearcher = getIndexSearcher();
//参数1:默认查询的域
//参数2:采用的分析器
QueryParser querParser=new QueryParser("fileName", new IKAnalyzer());
// *:* 域:值
Query query =querParser.parse("fileName:apache");
printResult(indexSearcher, query);
//关闭资源
indexSearcher.getIndexReader().close();
}