一、
- 搜索流程
- 代码实现
@Test
public void indexSearch() throws Exception {
// 创建query对象
// 使用QueryParser搜索时,需要指定分词器,搜索时的分词器要和索引时的分词器一致
// 第一个参数:默认搜索的域的名称
QueryParser parser = new QueryParser("description",
new StandardAnalyzer());
// 通过queryparser来创建query对象
// 参数:输入的lucene的查询语句(关键字一定要大写)
Query query = parser.parse("description:java AND lucene");
// 创建IndexSearcher
// 指定索引库的地址
File indexFile = new File("E:\\11-index\\hm19\\");
Directory directory = FSDirectory.open(indexFile);
IndexReader reader = DirectoryReader.open(directory);
IndexSearcher searcher = new IndexSearcher(reader);
// 通过searcher来搜索索引库
// 第二个参数:指定需要显示的顶部记录的N条
TopDocs topDocs = searcher.search(query, 10);
// 根据查询条件匹配出的记录总数
int count = topDocs.totalHits;
System.out.println("匹配出的记录总数:" + count);
// 根据查询条件匹配出的记录
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
for (ScoreDoc scoreDoc : scoreDocs) {
// 获取文档的ID
int docId = scoreDoc.doc;
// 通过ID获取文档
Document doc = searcher.doc(docId);
System.out.println("商品ID:" + doc.get("id"));
System.out.println("商品名称:" + doc.get("name"));
System.out.println("商品价格:" + doc.get("price"));
System.out.println("商品图片地址:" + doc.get("pic"));
System.out.println("==========================");
// System.out.println("商品描述:" + doc.get("description"));
}
// 关闭资源
reader.close();
}
二、
Field域
- Field的属性
是否分词(Tokenized)
是:对该field存储的内容进行分词,分词的目的,就是为了索引。比如:商品名称、商品描述、商品价格
否:不需要对field存储的内容进行分词,不分词,不代表不索引,而是将整个内容进行索引。比如:商品id
- 是否索引(Indexed)
是:将分好的词进行索引,索引的目的,就是为了搜索。比如:商品名称、商品描述、商品价格、商品id
否:不索引,也就是不对该field域进行搜索。
- 是否存储(Stored)
是:将field域中的内容存储到文档域中。存储的目的,就是为了搜索页面显示取值用的。比如:商品名称、商品价格、商品id、商品图片地址
否:不将field域中的内容存储到文档域中。不存储,则搜索页面中没法获取该field域的值。
比如:商品描述,由于商品描述在搜索页面中不需要显示,再加上商品描述的内容比较多,所以就不需要进行存储。如果需要商品描述,则根据搜索出的商品ID去数据库中查询,然后显示出商品描述信息即可。
Field的常用类型
下边列出了开发中常用 的Filed类型,注意Field的属性,根据需求选择IntField、DoubleField、FloatField和LongField的用法相同
按照需求修改之前的Field代码:
// 图书ID
// 参数:域名、域中存储的内容、是否存储
// 不分词、索引、要存储
// Field id = new TextField("id", book.getId().toString(),
// Store.YES);
Field id = new StoredField("id", book.getId().toString(), Store.YES);
// 图书名称
// 分词、索引、存储
Field bookname = new TextField("bookname", book.getName(),
Store.YES);
// 图书价格
// 分词、索引、存储
Field price = new FloatField("price", book.getPrice(), Store.YES);
// 图书图片
// 不分词、不索引、要存储
Field pic = new StoredField("pic", book.getPic());
// 图书描述
// 分词、索引、不存储
Field description = new TextField("description",
book.getDescription(), Store.NO);
索引维护
- 添加索引
调用 indexWriter.addDocument(doc)添加索引。(详情见(一)中的入门程序)
- 删除索引
根据Term项删除索引,满足条件的将全部删除。
// 删除索引
@Test
public void deleteIndex() throws Exception {
// 1、指定索引库目录
Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
// 2、创建IndexWriterConfig
IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
new StandardAnalyzer());
// 3、 创建IndexWriter
IndexWriter writer = new IndexWriter(directory, cfg);
// 4、通过IndexWriter来删除索引
// b)、删除指定索引
writer.deleteDocuments(new Term("filename", "apache"));
// 5、关闭IndexWriter
writer.close();
}
- 删除全部索引(慎用)
将索引目录的索引信息全部删除,直接彻底删除,无法恢复。慎用!!!
// 删除索引
@Test
public void deleteIndex() throws Exception {
// 1、指定索引库目录
Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
// 2、创建IndexWriterConfig
IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
new StandardAnalyzer());
// 3、 创建IndexWriter
IndexWriter writer = new IndexWriter(directory, cfg);
// 4、通过IndexWriter来删除索引
// a)、删除全部索引
writer.deleteAll();
// 5、关闭IndexWriter
writer.close();
}
- 修改索引
更新索引是先删除再添加,建议对更新需求采用此方法并且要保证对已存在的索引执行更新,可以先查询出来,确定更新记录存在执行更新操作。
// 修改索引
@Test
public void updateIndex() throws Exception {
// 1、指定索引库目录
Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
// 2、创建IndexWriterConfig
IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
new StandardAnalyzer());
// 3、 创建IndexWriter
IndexWriter writer = new IndexWriter(directory, cfg);
// 4、通过IndexWriter来修改索引
// a)、创建修改后的文档对象
Document document = new Document();
// 文件名称
Field filenameField = new StringField("filename", "updateIndex", Store.YES);
document.add(filenameField);
// 修改指定索引为新的索引
writer.updateDocument(new Term("filename", "apache"), document);
// 5、关闭IndexWriter
writer.close();
}
三、
创建查询对象的方式
- 通过Query子类来创建查询对象
Query子类常用的有:TermQuery、NumericRangeQuery、BooleanQuery,不能输入lucene的查询语法,不需要指定分词器
- 通过QueryParser来创建查询对象(常用)
QueryParser、MultiFieldQueryParser,可以输入lucene的查询语法、可以指定分词器
TermQuery
TermQuery项查询,TermQuery不使用分析器,搜索关键词作为整体来匹配Field域中的词进行查询,比如订单号、分类ID号等。
private void doSearch(Query query) {
IndexReader reader = null;
try {
// a) 指定索引库目录
Directory indexdirectory = FSDirectory.open(new File(
"E:\\11-index\\0720"));
// b) 创建IndexReader对象
reader = DirectoryReader.open(indexdirectory);
// c) 创建IndexSearcher对象
IndexSearcher searcher = new IndexSearcher(reader);
// d) 通过IndexSearcher对象执行查询索引库,返回TopDocs对象
// 第一个参数:查询对象
// 第二个参数:最大的n条记录
TopDocs topDocs = searcher.search(query, 10);
// e) 提取TopDocs对象中的文档ID,如何找出对应的文档
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
System.out.println("总共查询出的结果总数为:" + topDocs.totalHits);
Document doc;
for (ScoreDoc scoreDoc : scoreDocs) {
// 文档对象ID
int docId = scoreDoc.doc;
doc = searcher.doc(docId);
// f) 输出文档内容
System.out.println(doc.get("filename"));
System.out.println(doc.get("path"));
System.out.println(doc.get("size"));
}
} catch (IOException e) {
e.printStackTrace();
} finally {
if (reader != null) {
try {
reader.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
@Test
public void testTermQuery() throws Exception {
// 1、 创建查询(Query对象)
Query query = new TermQuery(new Term("filename", "apache"));
// 2、 执行搜索
doSearch(query);
}
NumbericRangeQuery
NumericRangeQuery,指定数字范围查询.
@Test
public void testNumbericRangeQuery() throws Exception {
// 创建查询
// 第一个参数:域名
// 第二个参数:最小值
// 第三个参数:最大值
// 第四个参数:是否包含最小值
// 第五个参数:是否包含最大值
Query query = NumericRangeQuery.newLongRange("size", 1l, 100l, true,true);
// 2、 执行搜索
doSearch(query);
}
BooleanQuery
BooleanQuery,布尔查询,实现组合条件查询。
@Test
public void booleanQuery() throws Exception {
BooleanQuery query = new BooleanQuery();
Query query1 = new TermQuery(new Term("id", "3"));
Query query2 = NumericRangeQuery.newFloatRange("price", 10f, 200f,
true, true);
//MUST:查询条件必须满足,相当于AND
//SHOULD:查询条件可选,相当于OR
//MUST_NOT:查询条件不能满足,相当于NOT非
query.add(query1, Occur.MUST);
query.add(query2, Occur.SHOULD);
System.out.println(query);
search(query);
}
组合关系代表的意思如下:
1、MUST和MUST表示“与”的关系,即“并集”。
2、MUST和MUST_NOT前者包含后者不包含。
3、MUST_NOT和MUST_NOT没意义
4、SHOULD与MUST表示MUST,SHOULD失去意义;
5、SHOUlD与MUST_NOT相当于MUST与MUST_NOT。
6、SHOULD与SHOULD表示“或”的概念。
通过QueryParser搜索
通过QueryParser也可以创建Query,QueryParser提供一个Parse方法,此方法可以直接根据查询语法来查询。Query对象执行的查询语法可通过System.out.println(query);
QueryParser
@Test
public void testQueryParser() throws Exception {
// 创建QueryParser
// 第一个参数:默认域名
// 第二个参数:分词器
QueryParser queryParser = new QueryParser("name", new IKAnalyzer());
// 指定查询语法 ,如果不指定域,就搜索默认的域
Query query = queryParser.parse("lucene");
System.out.println(query);
// 2、 执行搜索
doSearch(query);
}
查询语法
基础的查询语法,
- 关键词查询
域名+“:”+搜索的关键字
例如:content:java
- 范围查询
域名+“:”+[最小值 TO 最大值]
例如:size:[1 TO 1000]
注意:QueryParser不支持对数字范围的搜索,它支持字符串范围。数字范围搜索建议使用NumericRangeQuery。
- 组合条件查询
1)+条件1 +条件2:两个条件之间是并且的关系and
例如:+filename:apache +content:apache
- +条件1 条件2:必须满足第一个条件,忽略第二个条件
例如:+filename:apache content:apache
- 条件1 条件2:两个条件满足其一即可。
例如:filename:apache content:apache
4)-条件1 条件2:必须不满足条件1,要满足条件2
例如:-filename:apache content:apache
第二种写法:
条件1 AND 条件2
条件1 OR 条件2
条件1 NOT 条件2
MultiFieldQueryParser
通过MuliFieldQueryParse对多个域查询。
@Test
public void testMultiFieldQueryParser() throws Exception {
// 可以指定默认搜索的域是多个
String[] fields = { "name", "description" };
// 创建一个MulitFiledQueryParser对象
QueryParser parser = new MultiFieldQueryParser(fields, new IKAnalyzer());
// 指定查询语法 ,如果不指定域,就搜索默认的域
Query query = parser.parse("lucene");
// 2、 执行搜索
doSearch(query);
}
相关度排序
- 什么是相关度排序
相关度排序就是查询关键字与查询结果的匹配相关度。匹配越高的越靠前。Lucene是通过打分来进行相关度排序的。
打分分两步:
- 根据词计算词的权重
- 根据词的权重进行打分
词的权重:词指的就是term。也就是说一个term对一个文档的重要性,就叫词的权重。
影响词的权重的方式有两种:
Tf
词在同一个文档中出现的频率
Tf越高,说明词的权重越高
Df
词在多个文档中出现的频率
Df越高,说明词的权重越低
以上是自然打分的规则。
- 设置boost值影响打分
Boost:加权值,默认是1.0f。
设置加权值可以在创建索引时设置,也可以在查询时设置。
Boost值是设置到Field域上的。
- 创建索引时设置boost值
@Test
public void setBoost4createIndex() throws Exception {
// 创建分词器
Analyzer analyzer = new StandardAnalyzer();
IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,
analyzer);
Directory directory = FSDirectory.open(new File("E:\\11-index\\0728"));
// 创建IndexWriter对象,通过它把分好的词写到索引库中
IndexWriter writer = new IndexWriter(directory, cfg);
Document doc = new Document();
Field id = new StringField("id", "11", Store.YES);
Field description = new TextField("description", "测试设置BOOST值 lucene",
Store.YES);
// 设置boost
description.setBoost(10.0f);
// 把域添加到文档中
doc.add(id);
doc.add(description);
writer.addDocument(doc);
// 关闭IndexWriter
writer.close();
}
- 搜索时设置boost值
在MultiFieldQueryParser创建时设置boost值。
- 什么是中文分词器
对于英文,是安装空格、标点符号进行分词
对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词。
比如:“我的中国人”,分词:我、的、中国、中国人、国人。
- Lucene自带的中文分词器
- StandardAnalyzer:单字分词:就是按照中文一个字一个字地进行分词。如:“我爱中国”,效果:“我”、“爱”、“中”、“国”。
- CJKAnalyzer二分法分词:按两个字进行切分。如:“我是中国人”,效果:“我是”、“是中”、“中国”“国人”。
上边两个分词器无法满足需求
- 第三方中文分词器
- paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。
- mmseg4j:最新版已从 https://code.google.com/p/mmseg4j/ 移至 https://github.com/chenlb/mmseg4j-solr,支持Lucene 4.10,且在github中最新提交代码是2014年6月,从09年~14年一共有:18个版本,也就是一年几乎有3个大小版本,有较大的活跃度,用了mmseg算法。
- IK-analyzer: 最新版在https://code.google.com/p/ik-analyzer/上,支持Lucene 4.10从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 但是也就是2012年12月后没有在更新。
- ansj_seg:最新版本在 https://github.com/NLPchina/ansj_seg tags仅有1.1版本,从2012年到2014年更新了大小6次,但是作者本人在2014年10月10日说明:“可能我以后没有精力来维护ansj_seg了”,现在由”nlp_china”管理。2014年11月有更新。并未说明是否支持Lucene,是一个由CRF(条件随机场)算法所做的分词算法。
- imdict-chinese-analyzer:最新版在 https://code.google.com/p/imdict-chinese-analyzer/ , 最新更新也在2009年5月,下载源码,不支持Lucene 4.10 。是利用HMM(隐马尔科夫链)算法。
Jcseg:最新版本在git.oschina.net/lionsoul/jcseg,支持Lucene 4.10,作者有较高的活跃度。利用mmseg算法。
应用IK-analyzer:
添加到jar包中去
修改分词器代码
// 创建中文分词器
Analyzer analyzer = new IKAnalyzer();
扩展中文词库
将以下文件拷贝到根目录下
注意:不要用记事本保存扩展词文件和停用词文件,那样的话,格式中是含有bom的。