Lucene的总结(二)

一、

  • 搜索流程

                           

  • 代码实现
@Test
	public void indexSearch() throws Exception {
		// 创建query对象
		// 使用QueryParser搜索时,需要指定分词器,搜索时的分词器要和索引时的分词器一致
		// 第一个参数:默认搜索的域的名称
		QueryParser parser = new QueryParser("description",
				new StandardAnalyzer());

		// 通过queryparser来创建query对象
		// 参数:输入的lucene的查询语句(关键字一定要大写)
		Query query = parser.parse("description:java AND lucene");

		// 创建IndexSearcher
		// 指定索引库的地址
		File indexFile = new File("E:\\11-index\\hm19\\");
		Directory directory = FSDirectory.open(indexFile);
		IndexReader reader = DirectoryReader.open(directory);
		IndexSearcher searcher = new IndexSearcher(reader);

		// 通过searcher来搜索索引库
		// 第二个参数:指定需要显示的顶部记录的N条
		TopDocs topDocs = searcher.search(query, 10);

		// 根据查询条件匹配出的记录总数
		int count = topDocs.totalHits;
		System.out.println("匹配出的记录总数:" + count);
		// 根据查询条件匹配出的记录
		ScoreDoc[] scoreDocs = topDocs.scoreDocs;

		for (ScoreDoc scoreDoc : scoreDocs) {
			// 获取文档的ID
			int docId = scoreDoc.doc;

			// 通过ID获取文档
			Document doc = searcher.doc(docId);
			System.out.println("商品ID:" + doc.get("id"));
			System.out.println("商品名称:" + doc.get("name"));
			System.out.println("商品价格:" + doc.get("price"));
			System.out.println("商品图片地址:" + doc.get("pic"));
			System.out.println("==========================");
			// System.out.println("商品描述:" + doc.get("description"));
		}
		// 关闭资源
		reader.close();
	}

 

二、 

Field域    ​​​​​​

  •      Field的属性

       是否分词(Tokenized)

是:对该field存储的内容进行分词,分词的目的就是为了索引。比如:商品名称、商品描述、商品价格

否:不需要对field存储的内容进行分词,不分词,不代表不索引,而是将整个内容进行索引。比如:商品id

 

  • 是否索引(Indexed)

是:将分好的词进行索引,索引的目的就是为了搜索。比如:商品名称、商品描述、商品价格、商品id

否:不索引,也就是不对该field域进行搜索。

 

  • 是否存储(Stored)

是:将field域中的内容存储到文档域中。存储的目的就是为了搜索页面显示取值用的。比如:商品名称、商品价格、商品id、商品图片地址

否:不将field域中的内容存储到文档域中。不存储,则搜索页面中没法获取该field域的值。

比如:商品描述,由于商品描述在搜索页面中不需要显示,再加上商品描述的内容比较多,所以就不需要进行存储。如果需要商品描述,则根据搜索出的商品ID去数据库中查询,然后显示出商品描述信息即可。

Field的常用类型

           下边列出了开发中常用 的Filed类型,注意Field的属性,根据需求选择IntField、DoubleField、FloatField和LongField的用法相同

         

 

按照需求修改之前的Field代码:

// 图书ID
			// 参数:域名、域中存储的内容、是否存储
			// 不分词、索引、要存储
			// Field id = new TextField("id", book.getId().toString(),
			// Store.YES);
			Field id = new StoredField("id", book.getId().toString(), Store.YES);
			// 图书名称
			// 分词、索引、存储
			Field bookname = new TextField("bookname", book.getName(),
					Store.YES);
			// 图书价格
			// 分词、索引、存储
			Field price = new FloatField("price", book.getPrice(), Store.YES);
			// 图书图片
			// 不分词、不索引、要存储
			Field pic = new StoredField("pic", book.getPic());
			// 图书描述
			// 分词、索引、不存储
			Field description = new TextField("description",
					book.getDescription(), Store.NO);

 

索引维护

  • 添加索引   

调用 indexWriter.addDocument(doc)添加索引。(详情见(一)中的入门程序)

  • 删除索引

     根据Term项删除索引,满足条件的将全部删除。

// 删除索引
	@Test
	public void deleteIndex() throws Exception {
		// 1、指定索引库目录
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
		// 2、创建IndexWriterConfig
		IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
				new StandardAnalyzer());
		// 3、 创建IndexWriter
		IndexWriter writer = new IndexWriter(directory, cfg);
		// 4、通过IndexWriter来删除索引
		// b)、删除指定索引
		writer.deleteDocuments(new Term("filename", "apache"));
		// 5、关闭IndexWriter
		writer.close();
	}

 

  • 删除全部索引(慎用)

将索引目录的索引信息全部删除,直接彻底删除,无法恢复。慎用!!!

// 删除索引
	@Test
	public void deleteIndex() throws Exception {
		// 1、指定索引库目录
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
		// 2、创建IndexWriterConfig
		IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
				new StandardAnalyzer());
		// 3、 创建IndexWriter
		IndexWriter writer = new IndexWriter(directory, cfg);
		// 4、通过IndexWriter来删除索引
		// a)、删除全部索引
		writer.deleteAll();
		// 5、关闭IndexWriter
		writer.close();
	}

 

 

 

 

  • 修改索引

更新索引是先删除再添加,建议对更新需求采用此方法并且要保证对已存在的索引执行更新,可以先查询出来,确定更新记录存在执行更新操作。

// 修改索引
	@Test
	public void updateIndex() throws Exception {
		// 1、指定索引库目录
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
		// 2、创建IndexWriterConfig
		IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
				new StandardAnalyzer());
		// 3、 创建IndexWriter
		IndexWriter writer = new IndexWriter(directory, cfg);
		// 4、通过IndexWriter来修改索引
		// a)、创建修改后的文档对象
		Document document = new Document();

		// 文件名称
		Field filenameField = new StringField("filename", "updateIndex", Store.YES);
		document.add(filenameField);

		// 修改指定索引为新的索引
		writer.updateDocument(new Term("filename", "apache"), document);

		// 5、关闭IndexWriter
		writer.close();
	}

三、

 

创建查询对象的方式

  • 通过Query子类来创建查询对象

Query子类常用的有:TermQuery、NumericRangeQuery、BooleanQuery,不能输入lucene的查询语法,不需要指定分词器

  • 通过QueryParser来创建查询对象(常用)

QueryParser、MultiFieldQueryParser,可以输入lucene的查询语法、可以指定分词器

 

​​​​​​​TermQuery

TermQuery项查询,TermQuery不使用分析器,搜索关键词作为整体来匹配Field域中的词进行查询,比如订单号、分类ID号等。

​​​​​​​

private void doSearch(Query query) {
		IndexReader reader = null;
		try {
			// a) 指定索引库目录
			Directory indexdirectory = FSDirectory.open(new File(
					"E:\\11-index\\0720"));
			// b) 创建IndexReader对象
			reader = DirectoryReader.open(indexdirectory);
			// c) 创建IndexSearcher对象
			IndexSearcher searcher = new IndexSearcher(reader);
			// d) 通过IndexSearcher对象执行查询索引库,返回TopDocs对象
			// 第一个参数:查询对象
			// 第二个参数:最大的n条记录
			TopDocs topDocs = searcher.search(query, 10);
			// e) 提取TopDocs对象中的文档ID,如何找出对应的文档
			ScoreDoc[] scoreDocs = topDocs.scoreDocs;
			System.out.println("总共查询出的结果总数为:" + topDocs.totalHits);
			Document doc;
			for (ScoreDoc scoreDoc : scoreDocs) {
				// 文档对象ID
				int docId = scoreDoc.doc;
				doc = searcher.doc(docId);
				// f) 输出文档内容
				System.out.println(doc.get("filename"));
				System.out.println(doc.get("path"));
				System.out.println(doc.get("size"));
			}
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			if (reader != null) {
				try {
					reader.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
	}

	@Test
	public void testTermQuery() throws Exception {
		// 1、 创建查询(Query对象)
		Query query = new TermQuery(new Term("filename", "apache"));
		// 2、 执行搜索
		doSearch(query);
	}

 

 

NumbericRangeQuery

NumericRangeQuery,指定数字范围查询.

@Test
	public void testNumbericRangeQuery() throws Exception {
		// 创建查询
		// 第一个参数:域名
		// 第二个参数:最小值
		// 第三个参数:最大值
		// 第四个参数:是否包含最小值
		// 第五个参数:是否包含最大值
		Query query = NumericRangeQuery.newLongRange("size", 1l, 100l, true,true);
		// 2、 执行搜索
		doSearch(query);
	}

 

BooleanQuery

BooleanQuery,布尔查询,实现组合条件查询。

@Test
	public void booleanQuery() throws Exception {
		BooleanQuery query = new BooleanQuery();
		Query query1 = new TermQuery(new Term("id", "3"));
		Query query2 = NumericRangeQuery.newFloatRange("price", 10f, 200f,
				true, true);

		//MUST:查询条件必须满足,相当于AND
		//SHOULD:查询条件可选,相当于OR
		//MUST_NOT:查询条件不能满足,相当于NOT非
		query.add(query1, Occur.MUST);
		query.add(query2, Occur.SHOULD);
		
		System.out.println(query);

		search(query);
	}

组合关系代表的意思如下:

     1、MUST和MUST表示“与”的关系,即“并集”。

     2、MUST和MUST_NOT前者包含后者不包含。

     3、MUST_NOT和MUST_NOT没意义

     4、SHOULD与MUST表示MUST,SHOULD失去意义;

     5、SHOUlD与MUST_NOT相当于MUST与MUST_NOT。

     6、SHOULD与SHOULD表示“或”的概念。

 

 

通过QueryParser搜索

通过QueryParser也可以创建Query,QueryParser提供一个Parse方法,此方法可以直接根据查询语法来查询。Query对象执行的查询语法可通过System.out.println(query);

​​​​​​​QueryParser

@Test
	public void testQueryParser() throws Exception {
		// 创建QueryParser
		// 第一个参数:默认域名
		// 第二个参数:分词器
		QueryParser queryParser = new QueryParser("name", new IKAnalyzer());
// 指定查询语法 ,如果不指定域,就搜索默认的域
		Query query = queryParser.parse("lucene");
		System.out.println(query);
		// 2、 执行搜索
		doSearch(query);

	}

​​​​​​​查询语法

基础的查询语法,

  • 关键词查询

域名+“:”+搜索的关键字

例如:content:java

  • 范围查询

域名+“:”+[最小值 TO 最大值]

例如:size:[1 TO 1000]

注意:QueryParser不支持对数字范围的搜索,它支持字符串范围。数字范围搜索建议使用NumericRangeQuery。

  • 组合条件查询

1)+条件1 +条件2:两个条件之间是并且的关系and

例如:+filename:apache +content:apache

  1. +条件1 条件2:必须满足第一个条件,忽略第二个条件

例如:+filename:apache content:apache

  1. 条件1 条件2:两个条件满足其一即可。

例如:filename:apache content:apache

4)-条件1 条件2:必须不满足条件1,要满足条件2

例如:-filename:apache content:apache

 

第二种写法:

条件1 AND 条件2

条件1 OR 条件2

条件1 NOT 条件2

​​​​​​​MultiFieldQueryParser

通过MuliFieldQueryParse对多个域查询。

	@Test
	public void testMultiFieldQueryParser() throws Exception {
		// 可以指定默认搜索的域是多个
		String[] fields = { "name", "description" };
		// 创建一个MulitFiledQueryParser对象
		QueryParser parser = new MultiFieldQueryParser(fields, new IKAnalyzer());
// 指定查询语法 ,如果不指定域,就搜索默认的域
		Query query = parser.parse("lucene");
		// 2、 执行搜索
		doSearch(query);
	}

相关度排序

  • 什么是相关度排序

相关度排序就是查询关键字与查询结果的匹配相关度。匹配越高的越靠前。Lucene是通过打分来进行相关度排序的。

 

打分分两步:

  1. 根据词计算词的权重
  2. 根据词的权重进行打分

词的权重:词指的就是term。也就是说一个term对一个文档的重要性,就叫词的权重。

影响词的权重的方式有两种:

Tf

词在同一个文档中出现的频率

Tf越高说明词的权重越高

Df

词在多个文档中出现的频率

Df越高说明词的权重越低

以上是自然打分的规则。

  • ​​​​​​​设置boost值影响打分

Boost:加权值,默认是1.0f。

设置加权值可以在创建索引时设置,也可以在查询时设置。

Boost值是设置到Field域上的

 

  • ​​​​​​​创建索引时设置boost值
@Test
	public void setBoost4createIndex() throws Exception {
		// 创建分词器
		Analyzer analyzer = new StandardAnalyzer();

		IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,
				analyzer);
		Directory directory = FSDirectory.open(new File("E:\\11-index\\0728"));
		// 创建IndexWriter对象,通过它把分好的词写到索引库中
		IndexWriter writer = new IndexWriter(directory, cfg);

		Document doc = new Document();
		Field id = new StringField("id", "11", Store.YES);
		Field description = new TextField("description", "测试设置BOOST值 lucene",
				Store.YES);
		// 设置boost
		description.setBoost(10.0f);
		// 把域添加到文档中
		doc.add(id);
		doc.add(description);
		writer.addDocument(doc);
		// 关闭IndexWriter
		writer.close();
	}

 

 

  • ​​​​​​​搜索时设置boost值

在MultiFieldQueryParser创建时设置boost值。

               

 

  • ​​​​​​​什么是中文分词器

对于英文,是安装空格、标点符号进行分词

对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词。

比如:“我的中国人”,分词:我、的、中国、中国人、国人。

 

  • ​​​​​​​Lucene自带的中文分词器
  1. StandardAnalyzer单字分词:就是按照中文一个字一个字地进行分词。如:“我爱中国”,效果:“我”、“爱”、“中”、“国”。
  2. CJKAnalyzer二分法分词:按两个字进行切分。如:“我是中国人”,效果:“我是”、“是中”、“中国”“国人”。

上边两个分词器无法满足需求

  • ​​​​​​​第三方中文分词器
  1. paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。
  2. mmseg4j:最新版已从 https://code.google.com/p/mmseg4j/ 移至 https://github.com/chenlb/mmseg4j-solr,支持Lucene 4.10,且在github中最新提交代码是2014年6月,从09年~14年一共有:18个版本,也就是一年几乎有3个大小版本,有较大的活跃度,用了mmseg算法。
  3. IK-analyzer: 最新版在https://code.google.com/p/ik-analyzer/上,支持Lucene 4.10从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 但是也就是2012年12月后没有在更新
  4. ansj_seg:最新版本在 https://github.com/NLPchina/ansj_seg tags仅有1.1版本,从2012年到2014年更新了大小6次,但是作者本人在2014年10月10日说明:“可能我以后没有精力来维护ansj_seg了”,现在由”nlp_china”管理。2014年11月有更新。并未说明是否支持Lucene,是一个由CRF(条件随机场)算法所做的分词算法。
  5. imdict-chinese-analyzer:最新版在 https://code.google.com/p/imdict-chinese-analyzer/ , 最新更新也在2009年5月,下载源码,不支持Lucene 4.10 。是利用HMM(隐马尔科夫链)算法。

Jcseg:最新版本在git.oschina.net/lionsoul/jcseg,支持Lucene 4.10,作者有较高的活跃度。利用mmseg算法。

应用IK-analyzer:

            

添加到jar包中去

                               

 

修改分词器代码

// 创建中文分词器
Analyzer analyzer = new IKAnalyzer();

 

​​​​​​​扩展中文词库

将以下文件拷贝到根目录下

            

注意:不要用记事本保存扩展词文件和停用词文件那样的话格式中是含有bom的

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值