lucence 全文搜索

最新推荐文章于 2021-09-01 18:01:08 发布

猿类是匿

最新推荐文章于 2021-09-01 18:01:08 发布

阅读量329

点赞数

文章标签： lucence

本文链接：https://blog.csdn.net/YangYanDong666/article/details/89704827

版权

什么是全文搜索？

数据的分类

结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件
查询方法：
顺序扫描：从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。
全文检索：将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。
例如：字典。字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。
这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。
虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。
应用场景：对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。

Lucene实现全文检索

在这里插入图片描述
1、绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：
确定原始内容即要搜索的内容—》采集文档----》创建文档----》分析文档—》索引文档

2、红色表示搜索过程，从索引库中搜索内容，搜索过程包括：
用户通过搜索界面—》创建查询—》执行搜索，从索引库搜索—》渲染搜索结果

配置开发环境

lucence下载

Lucene是开发全文检索功能的工具包，从官方网站下载Lucene4.10.3，并解压。
官方网站：http://lucene.apache.org/
jar包
在这里插入图片描述

其它：
commons-io-2.4.jar
junit-4.9.jar

入门小程序

实现一个文件的搜索功能，通过关键字搜索文件，凡是文件名或文件内容包括关键字的文件都需要找出来。还可以根据中文词语进行查询，并且需要支持多个条件查询。

创建索引

（0）创建一个java工程，导入上面的四个jar包
（1）指定索引库存放的路径
（2）创建indexwriter对象
a.指定索引库的存放位置
b.指定一个分析器，对文档内容进行分析
（3）创建docunment对象
（4）创建field对象，将filed添加到document对象中
（5）使用indexwriter对象将document对象写入索引库，此过程进行索引创建。并将索引和document对象写入索引库。
（6）关闭IndexWriter对象。

//创建索引
	@Test
	public void createIndex() throws Exception {
		
		//指定索引库存放的路径
		//D:\temp\0108\index
		Directory directory = FSDirectory.open(new File("D:\\temp\\0108\\index"));
		//索引库还可以存放到内存中
		//Directory directory = new RAMDirectory();
		//创建一个标准分析器
		Analyzer analyzer = new StandardAnalyzer();
		//创建indexwriterCofig对象
		//第一个参数： Lucene的版本信息，可以选择对应的lucene版本也可以使用LATEST
		//第二根参数：分析器对象
		IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);
		//创建indexwriter对象
		IndexWriter indexWriter = new IndexWriter(directory, config);
		//原始文档的路径D:\传智播客\01.课程\04.lucene\01.参考资料\searchsource
		File dir = new File("D:\\传智播客\\01.课程\\04.lucene\\01.参考资料\\searchsource");
		for (File f : dir.listFiles()) {
			//文件名
			String fileName = f.getName();
			//文件内容
			String fileContent = FileUtils.readFileToString(f);
			//文件路径
			String filePath = f.getPath();
			//文件的大小
			long fileSize  = FileUtils.sizeOf(f);
			//创建文件名域
			//第一个参数：域的名称
			//第二个参数：域的内容
			//第三个参数：是否存储
			Field fileNameField = new TextField("filename", fileName, Store.YES);
			//文件内容域
			Field fileContentField = new TextField("content", fileContent, Store.YES);
			//文件路径域（不分析、不索引、只存储）
			Field filePathField = new TextField("path", filePath);
			//文件大小域
			Field fileSizeField = new TextField("size", fileSize + "", Store.YES);
			
			//创建document对象
			Document document = new Document();
			document.add(fileNameField);
			document.add(fileContentField);
			document.add(filePathField);
			document.add(fileSizeField);
			//创建索引，并写入索引库
			indexWriter.addDocument(document);
		}
		//关闭indexwriter
		indexWriter.close();
	}

查询索引

第一步：创建一个Directory对象，也就是索引库存放的位置。
第二步：创建一个indexReader对象，需要指定Directory对象。
第三步：创建一个indexsearcher对象，需要指定IndexReader对象
第四步：创建一个TermQuery对象，指定查询的域和查询的关键词。
第五步：执行查询。
第六步：返回查询结果。遍历查询结果并输出。
第七步：关闭IndexReader对象

//查询索引库
	@Test
	public void searchIndex() throws Exception {
		//指定索引库存放的路径
		//D:\temp\0108\index
		Directory directory = FSDirectory.open(new File("D:\\temp\\0108\\index"));
		//创建indexReader对象
		IndexReader indexReader = DirectoryReader.open(directory);
		//创建indexsearcher对象
		IndexSearcher indexSearcher = new IndexSearcher(indexReader);
		//创建查询
		Query query = new TermQuery(new Term("filename", "apache"));
		//执行查询
		//第一个参数是查询对象，第二个参数是查询结果返回的最大值
		TopDocs topDocs = indexSearcher.search(query, 10);
		//查询结果的总条数
		System.out.println("查询结果的总条数："+ topDocs.totalHits);
		//遍历查询结果
		//topDocs.scoreDocs存储了document对象的id
		for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
			//scoreDoc.doc属性就是document对象的id
			//根据document的id找到document对象
			Document document = indexSearcher.doc(scoreDoc.doc);
			System.out.println(document.get("filename"));
			//System.out.println(document.get("content"));
			System.out.println(document.get("path"));
			System.out.println(document.get("size"));
		}
		//关闭indexreader对象
		indexReader.close();
	}

分词器

//查看标准分析器的分词效果
	public void testTokenStream() throws Exception {
		//创建一个标准分析器对象
		Analyzer analyzer = new StandardAnalyzer();
		//获得tokenStream对象
		//第一个参数：域名，可以随便给一个
		//第二个参数：要分析的文本内容
		TokenStream tokenStream = analyzer.tokenStream("test", "The Spring Framework provides a comprehensive programming and configuration model.");
		//添加一个引用，可以获得每个关键词
		CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
		//将指针调整到列表的头部
		tokenStream.reset();
		//遍历关键词列表，通过incrementToken方法判断列表是否结束
		while(tokenStream.incrementToken()) {
			//取关键词
			System.out.println(charTermAttribute);
			
		}
		tokenStream.close();
	}

Analyzer 每个分词器tokenStream方法
// Analyzer analyzer = new StandardAnalyzer(); //英文按照空格分词，中文一个字一个字
// Analyzer analyzer = new CJKAnalyzer(); //中文两个字两个字
// 需要导入lucene-analyzers-smartcn-4.10.3.jar
// Analyzer analyzer = new SmartChineseAnalyzer(); //中文还可以，但是英文容易出现缺字母

// 第三方分词器IK-Analyzer
// 需要导入jar IKAnalyzer2012FF_u1.jar
Analyzer analyzer = new IKAnalyzer();

猿类是匿

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
lucence 全文搜索

什么是全文搜索？数据的分类结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件查询方法：顺序扫描：从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。全文检索：将非结构化数据中的一部分信息提...
复制链接

扫一扫