lucene原理及应用
1、什么是全文检索
全文检索是:计算机程序通过扫描文章中的每一个词,对每一个词创建一个索引,指明该词在文章中出现的次数和位置
当用户查询时,根据建立的索引查询,
(类似通过字典索引查询汉字的过程)
lucene就是做索引的东西
2、全文检索特性
1)只处理文本,不处理语义
2)检索时不区分大小
3)搜索时结果列表有相关度排序
3、lucene、handoop都是apache的子项目
4、创建索引、索引查找
indexWriter
indexSearcher
5、分词器保持一致:
创建索引和索引查询(QueryParser)时,都用到分词器,必须保持一致,否则可能搜索不到数据
6、分词器Analyzer工作流程
分词器:把一段文本词 按规则取出 所包含的所有词
Analyzer类:是一个抽象类,切分词的具体规则由子类实现
不同语言有不同分词器
7、lucene相关度排序
lucene结果document 每个document都有一个打分,得分越高,排序靠前 打分可自己干预
得分跟命中的次数有关系
得分跟文档出现的搜索关键字的次数或者位置有关系
8 lucene检索与数据库检索
DB like,按行扫描,慢 order by排序
lucene 先建索引在查,一次创建多次使用 相关度打分排序,可人工干预
9、索引查询demo
/*
1:找到磁盘索引目录,将索引文件读取到 IndexReader 中 indexReader = DirectoryReader.open(FSDirectory.open(new File("D:/zcftest_index")));
2:构造索引对象 IndexSearcher indexSearcher = new IndexSearcher(indexReader);
3:创建查询条件 Query query = new TermQuery(new Term("content","人&