Lucene的总结（二）

最新推荐文章于 2024-09-05 10:39:00 发布

Gray_humor

最新推荐文章于 2024-09-05 10:39:00 发布

阅读量232

点赞数

分类专栏： Lucene 文章标签： java 全文检索 Lucene

本文链接：https://blog.csdn.net/Gray_humor/article/details/86633675

版权

Lucene 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、

搜索流程

代码实现

@Test
	public void indexSearch() throws Exception {
		// 创建query对象
		// 使用QueryParser搜索时，需要指定分词器，搜索时的分词器要和索引时的分词器一致
		// 第一个参数：默认搜索的域的名称
		QueryParser parser = new QueryParser("description",
				new StandardAnalyzer());

		// 通过queryparser来创建query对象
		// 参数：输入的lucene的查询语句(关键字一定要大写)
		Query query = parser.parse("description:java AND lucene");

		// 创建IndexSearcher
		// 指定索引库的地址
		File indexFile = new File("E:\\11-index\\hm19\\");
		Directory directory = FSDirectory.open(indexFile);
		IndexReader reader = DirectoryReader.open(directory);
		IndexSearcher searcher = new IndexSearcher(reader);

		// 通过searcher来搜索索引库
		// 第二个参数：指定需要显示的顶部记录的N条
		TopDocs topDocs = searcher.search(query, 10);

		// 根据查询条件匹配出的记录总数
		int count = topDocs.totalHits;
		System.out.println("匹配出的记录总数:" + count);
		// 根据查询条件匹配出的记录
		ScoreDoc[] scoreDocs = topDocs.scoreDocs;

		for (ScoreDoc scoreDoc : scoreDocs) {
			// 获取文档的ID
			int docId = scoreDoc.doc;

			// 通过ID获取文档
			Document doc = searcher.doc(docId);
			System.out.println("商品ID：" + doc.get("id"));
			System.out.println("商品名称：" + doc.get("name"));
			System.out.println("商品价格：" + doc.get("price"));
			System.out.println("商品图片地址：" + doc.get("pic"));
			System.out.println("==========================");
			// System.out.println("商品描述：" + doc.get("description"));
		}
		// 关闭资源
		reader.close();
	}

二、

Field域

Field的属性

是否分词（Tokenized）

是：对该field存储的内容进行分词，分词的目的，就是为了索引。比如：商品名称、商品描述、商品价格

否：不需要对field存储的内容进行分词，不分词，不代表不索引，而是将整个内容进行索引。比如：商品id

是否索引（Indexed）

是：将分好的词进行索引，索引的目的，就是为了搜索。比如：商品名称、商品描述、商品价格、商品id

否：不索引，也就是不对该field域进行搜索。

是否存储（Stored）

是：将field域中的内容存储到文档域中。存储的目的，就是为了搜索页面显示取值用的。比如：商品名称、商品价格、商品id、商品图片地址

否：不将field域中的内容存储到文档域中。不存储，则搜索页面中没法获取该field域的值。

比如：商品描述，由于商品描述在搜索页面中不需要显示，再加上商品描述的内容比较多，所以就不需要进行存储。如果需要商品描述，则根据搜索出的商品ID去数据库中查询，然后显示出商品描述信息即可。

Field的常用类型

下边列出了开发中常用的Filed类型，注意Field的属性，根据需求选择IntField、DoubleField、FloatField和LongField的用法相同

按照需求修改之前的Field代码:

// 图书ID
			// 参数：域名、域中存储的内容、是否存储
			// 不分词、索引、要存储
			// Field id = new TextField("id", book.getId().toString(),
			// Store.YES);
			Field id = new StoredField("id", book.getId().toString(), Store.YES);
			// 图书名称
			// 分词、索引、存储
			Field bookname = new TextField("bookname", book.getName(),
					Store.YES);
			// 图书价格
			// 分词、索引、存储
			Field price = new FloatField("price", book.getPrice(), Store.YES);
			// 图书图片
			// 不分词、不索引、要存储
			Field pic = new StoredField("pic", book.getPic());
			// 图书描述
			// 分词、索引、不存储
			Field description = new TextField("description",
					book.getDescription(), Store.NO);

索引维护

添加索引

调用 indexWriter.addDocument（doc）添加索引。（详情见（一）中的入门程序）

删除索引

根据Term项删除索引，满足条件的将全部删除。

// 删除索引
	@Test
	public void deleteIndex() throws Exception {
		// 1、指定索引库目录
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
		// 2、创建IndexWriterConfig
		IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
				new StandardAnalyzer());
		// 3、 创建IndexWriter
		IndexWriter writer = new IndexWriter(directory, cfg);
		// 4、通过IndexWriter来删除索引
		// b)、删除指定索引
		writer.deleteDocuments(new Term("filename", "apache"));
		// 5、关闭IndexWriter
		writer.close();
	}

删除全部索引（慎用）

将索引目录的索引信息全部删除，直接彻底删除，无法恢复。慎用！！！

// 删除索引
	@Test
	public void deleteIndex() throws Exception {
		// 1、指定索引库目录
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
		// 2、创建IndexWriterConfig
		IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
				new StandardAnalyzer());
		// 3、 创建IndexWriter
		IndexWriter writer = new IndexWriter(directory, cfg);
		// 4、通过IndexWriter来删除索引
		// a)、删除全部索引
		writer.deleteAll();
		// 5、关闭IndexWriter
		writer.close();
	}

修改索引

更新索引是先删除再添加，建议对更新需求采用此方法并且要保证对已存在的索引执行更新，可以先查询出来，确定更新记录存在执行更新操作。

// 修改索引
	@Test
	public void updateIndex() throws Exception {
		// 1、指定索引库目录
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
		// 2、创建IndexWriterConfig
		IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
				new StandardAnalyzer());
		// 3、 创建IndexWriter
		IndexWriter writer = new IndexWriter(directory, cfg);
		// 4、通过IndexWriter来修改索引
		// a)、创建修改后的文档对象
		Document document = new Document();

		// 文件名称
		Field filenameField = new StringField("filename", "updateIndex", Store.YES);
		document.add(filenameField);

		// 修改指定索引为新的索引
		writer.updateDocument(new Term("filename", "apache"), document);

		// 5、关闭IndexWriter
		writer.close();
	}

三、

创建查询对象的方式

通过Query子类来创建查询对象

Query子类常用的有：TermQuery、NumericRangeQuery、BooleanQuery，不能输入lucene的查询语法，不需要指定分词器

通过QueryParser来创建查询对象（常用）

QueryParser、MultiFieldQueryParser，可以输入lucene的查询语法、可以指定分词器

TermQuery

TermQuery项查询，TermQuery不使用分析器，搜索关键词作为整体来匹配Field域中的词进行查询，比如订单号、分类ID号等。

private void doSearch(Query query) {
		IndexReader reader = null;
		try {
			// a) 指定索引库目录
			Directory indexdirectory = FSDirectory.open(new File(
					"E:\\11-index\\0720"));
			// b) 创建IndexReader对象
			reader = DirectoryReader.open(indexdirectory);
			// c) 创建IndexSearcher对象
			IndexSearcher searcher = new IndexSearcher(reader);
			// d) 通过IndexSearcher对象执行查询索引库，返回TopDocs对象
			// 第一个参数：查询对象
			// 第二个参数：最大的n条记录
			TopDocs topDocs = searcher.search(query, 10);
			// e) 提取TopDocs对象中的文档ID，如何找出对应的文档
			ScoreDoc[] scoreDocs = topDocs.scoreDocs;
			System.out.println("总共查询出的结果总数为：" + topDocs.totalHits);
			Document doc;
			for (ScoreDoc scoreDoc : scoreDocs) {
				// 文档对象ID
				int docId = scoreDoc.doc;
				doc = searcher.doc(docId);
				// f) 输出文档内容
				System.out.println(doc.get("filename"));
				System.out.println(doc.get("path"));
				System.out.println(doc.get("size"));
			}
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			if (reader != null) {
				try {
					reader.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
	}

	@Test
	public void testTermQuery() throws Exception {
		// 1、 创建查询（Query对象）
		Query query = new TermQuery(new Term("filename", "apache"));
		// 2、 执行搜索
		doSearch(query);
	}

NumbericRangeQuery

NumericRangeQuery，指定数字范围查询.

@Test
	public void testNumbericRangeQuery() throws Exception {
		// 创建查询
		// 第一个参数：域名
		// 第二个参数：最小值
		// 第三个参数：最大值
		// 第四个参数：是否包含最小值
		// 第五个参数：是否包含最大值
		Query query = NumericRangeQuery.newLongRange("size", 1l, 100l, true,true);
		// 2、 执行搜索
		doSearch(query);
	}

BooleanQuery

BooleanQuery，布尔查询，实现组合条件查询。

@Test
	public void booleanQuery() throws Exception {
		BooleanQuery query = new BooleanQuery();
		Query query1 = new TermQuery(new Term("id", "3"));
		Query query2 = NumericRangeQuery.newFloatRange("price", 10f, 200f,
				true, true);

		//MUST：查询条件必须满足，相当于AND
		//SHOULD:查询条件可选，相当于OR
		//MUST_NOT：查询条件不能满足，相当于NOT非
		query.add(query1, Occur.MUST);
		query.add(query2, Occur.SHOULD);
		
		System.out.println(query);

		search(query);
	}

组合关系代表的意思如下:

1、MUST和MUST表示“与”的关系，即“并集”。

2、MUST和MUST_NOT前者包含后者不包含。

3、MUST_NOT和MUST_NOT没意义

4、SHOULD与MUST表示MUST，SHOULD失去意义；

5、SHOUlD与MUST_NOT相当于MUST与MUST_NOT。

6、SHOULD与SHOULD表示“或”的概念。

通过QueryParser搜索

通过QueryParser也可以创建Query，QueryParser提供一个Parse方法，此方法可以直接根据查询语法来查询。Query对象执行的查询语法可通过System.out.println(query);

QueryParser

@Test
	public void testQueryParser() throws Exception {
		// 创建QueryParser
		// 第一个参数：默认域名
		// 第二个参数：分词器
		QueryParser queryParser = new QueryParser("name", new IKAnalyzer());
// 指定查询语法 ，如果不指定域，就搜索默认的域
		Query query = queryParser.parse("lucene");
		System.out.println(query);
		// 2、 执行搜索
		doSearch(query);

	}

查询语法

基础的查询语法，

关键词查询

域名+“：”+搜索的关键字

例如：content:java

范围查询

域名+“:”+[最小值 TO 最大值]

例如：size:[1 TO 1000]

注意：QueryParser不支持对数字范围的搜索，它支持字符串范围。数字范围搜索建议使用NumericRangeQuery。

组合条件查询

1）+条件1 +条件2：两个条件之间是并且的关系and

例如：+filename:apache +content:apache

+条件1 条件2：必须满足第一个条件，忽略第二个条件

例如：+filename:apache content:apache

条件1 条件2：两个条件满足其一即可。

例如：filename:apache content:apache

4）-条件1 条件2：必须不满足条件1，要满足条件2

例如：-filename:apache content:apache

第二种写法：

条件1 AND 条件2

条件1 OR 条件2

条件1 NOT 条件2

MultiFieldQueryParser

通过MuliFieldQueryParse对多个域查询。

	@Test
	public void testMultiFieldQueryParser() throws Exception {
		// 可以指定默认搜索的域是多个
		String[] fields = { "name", "description" };
		// 创建一个MulitFiledQueryParser对象
		QueryParser parser = new MultiFieldQueryParser(fields, new IKAnalyzer());
// 指定查询语法 ，如果不指定域，就搜索默认的域
		Query query = parser.parse("lucene");
		// 2、 执行搜索
		doSearch(query);
	}

相关度排序

什么是相关度排序

相关度排序就是查询关键字与查询结果的匹配相关度。匹配越高的越靠前。Lucene是通过打分来进行相关度排序的。

打分分两步：

根据词计算词的权重
根据词的权重进行打分

词的权重：词指的就是term。也就是说一个term对一个文档的重要性，就叫词的权重。

影响词的权重的方式有两种：

词在同一个文档中出现的频率

Tf越高，说明词的权重越高

词在多个文档中出现的频率

Df越高，说明词的权重越低

以上是自然打分的规则。

设置boost值影响打分

Boost：加权值，默认是1.0f。

设置加权值可以在创建索引时设置，也可以在查询时设置。

Boost值是设置到Field域上的。

创建索引时设置boost值

@Test
	public void setBoost4createIndex() throws Exception {
		// 创建分词器
		Analyzer analyzer = new StandardAnalyzer();

		IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,
				analyzer);
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0728"));
		// 创建IndexWriter对象，通过它把分好的词写到索引库中
		IndexWriter writer = new IndexWriter(directory, cfg);

		Document doc = new Document();
		Field id = new StringField("id", "11", Store.YES);
		Field description = new TextField("description", "测试设置BOOST值 lucene",
				Store.YES);
		// 设置boost
		description.setBoost(10.0f);
		// 把域添加到文档中
		doc.add(id);
		doc.add(description);
		writer.addDocument(doc);
		// 关闭IndexWriter
		writer.close();
	}

搜索时设置boost值

在MultiFieldQueryParser创建时设置boost值。

什么是中文分词器

对于英文，是安装空格、标点符号进行分词

对于中文，应该安装具体的词来分，中文分词就是将词，切分成一个个有意义的词。

比如：“我的中国人”，分词：我、的、中国、中国人、国人。

Lucene自带的中文分词器

StandardAnalyzer：单字分词：就是按照中文一个字一个字地进行分词。如：“我爱中国”，效果：“我”、“爱”、“中”、“国”。
CJKAnalyzer二分法分词：按两个字进行切分。如：“我是中国人”，效果：“我是”、“是中”、“中国”“国人”。

上边两个分词器无法满足需求

第三方中文分词器

paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。
mmseg4j：最新版已从 https://code.google.com/p/mmseg4j/ 移至 https://github.com/chenlb/mmseg4j-solr，支持Lucene 4.10，且在github中最新提交代码是2014年6月，从09年～14年一共有：18个版本，也就是一年几乎有3个大小版本，有较大的活跃度，用了mmseg算法。
IK-analyzer：最新版在https://code.google.com/p/ik-analyzer/上，支持Lucene 4.10从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。但是也就是2012年12月后没有在更新。
ansj_seg：最新版本在 https://github.com/NLPchina/ansj_seg tags仅有1.1版本，从2012年到2014年更新了大小6次，但是作者本人在2014年10月10日说明：“可能我以后没有精力来维护ansj_seg了”，现在由”nlp_china”管理。2014年11月有更新。并未说明是否支持Lucene，是一个由CRF（条件随机场）算法所做的分词算法。
imdict-chinese-analyzer：最新版在 https://code.google.com/p/imdict-chinese-analyzer/ ，最新更新也在2009年5月，下载源码，不支持Lucene 4.10 。是利用HMM（隐马尔科夫链）算法。

Jcseg：最新版本在git.oschina.net/lionsoul/jcseg，支持Lucene 4.10，作者有较高的活跃度。利用mmseg算法。

应用IK-analyzer：

添加到jar包中去

修改分词器代码

// 创建中文分词器
Analyzer analyzer = new IKAnalyzer();

扩展中文词库

将以下文件拷贝到根目录下

注意：不要用记事本保存扩展词文件和停用词文件，那样的话，格式中是含有bom的。

Gray_humor

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene的总结（二）

一、搜索流程代码实现@Test public void indexSearch() throws Exception { // 创建query对象 // 使用QueryParser搜索时，需要指定分词器，搜索时的分词器要和索引时的分词器一致 // 第一个参数：默认搜索的域的名称 QueryParser parse...
复制链接

扫一扫