Lucene英文检索

最新推荐文章于 2023-12-30 21:45:00 发布

Shot outside

最新推荐文章于 2023-12-30 21:45:00 发布

阅读量368

点赞数 1

分类专栏： java 文章标签： lucene java

本文链接：https://blog.csdn.net/a1758855483/article/details/116006061

版权

java 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文深入介绍了Lucene，一个基于Java的全文检索工具包，用于处理结构化和非结构化数据的查询。文章详细阐述了全文检索技术，包括数据分类、查询方法和全文检索过程。通过示例展示了如何使用Lucene创建索引和查询索引库，以及分析器对文本的处理效果。此外，还提供了创建和查询索引的Java代码示例。

摘要由CSDN通过智能技术生成

Lucene

1.介绍

Lucene是一个基于Java开发全文检索工具包。

2.全文检索技术介绍

2.1数据的分类

1)结构化数据
格式固定、长度固定、数据类型固定。
例如数据库中的数据

2)非结构化数据
word文档、pdf文档、邮件、html、txt
格式不固定、长度不固定、数据类型不固定。

2.2数据的查询

1）结构化数据的查询
SQL语句，查询结构化数据的方法。简单、速度快。
2）非结构化数据的查询
从文本文件中找出包含spring单词的文件。
1、目测
2、使用程序吧文档读取到内存中，然后匹配字符串。顺序扫描。
3、把非结构化数据变成结构化数据
先跟根据空格进行字符串拆分，得到一个单词列表，基于单词列表创建一个索引。
然后查询索引，根据单词和文档的对应关系找到文档列表。这个过程叫做全文检索。

		索引：一个为了提高查询速度，创建某种数据结构的集合。

2.3全文检索

先创建索引然后查询索引的过程叫做全文检索。
索引一次创建可以多次使用。表现为每次查询速度很快。

只要是有搜索的地方就可以使用全文检索技术。

3.Lucene实现全文检索的流程

3.1创建索引

1）获得文档
原始文档：要基于那些数据来进行搜索，那么这些数据就是原始文档。
搜索引擎：使用爬虫获得原始文档
站内搜索：数据库中的数据。
案例：直接使用io流读取磁盘上的文件。
2）构建文档对象
对应每个原始文档创建一个Document对象
每个document对象中包含多个域（field）
域中保存就是原始文档数据。
域的名称
域的值
每个文档都有一个唯一的编号，就是文档id
3）分析文档
就是分词的过程
1、根据空格进行字符串拆分，得到一个单词列表
2、把单词统一转换成小写。
3、去除标点符号
4、去除停用词
停用词：无意义的词
每个关键词都封装成一个Term对象中。
Term中包含两部分内容：
关键词所在的域
关键词本身
不同的域中拆分出来的相同的关键词是不同的Term。
4）创建索引
基于关键词列表创建一个索引。保存到索引库中。
索引库中：
索引
document对象
关键词和文档的对应关系
通过词语找文档，这种索引的结构叫倒排索引结构。

3.2查询索引

1）用户查询接口
用户输入查询条件的地方
例如：百度的搜索框
2）把关键词封装成一个查询对象
要查询的域
要搜索的关键词
3）执行查询
根据要查询的关键词到对应的域上进行搜索。
找到关键词，根据关键词找到对应的文档
4）渲染结果
根据文档的id找到文档对象
对关键词进行高亮显示
分页处理
最终展示给用户看。

4.检索小栗子

4.1创建索引

环境：

	需要下载Lucene
	http://lucene.apache.org/
	最低要求jdk1.8

代码示例

//1.创建一个Director对象，指定索引库保存的位置
//把索引库保存到内存中
//Directory directory = new RAMDirectory();
//保存到磁盘中
Directory directory = FSDirectory.open(new File("D:\\lucene").toPath());
//2.基于Directory对象创建一个IndexWrite对象
IndexWriter indexWriter = new IndexWriter(directory,new IndexWriterConfig());
//3.读取磁盘上的文件，对应每个文件创建一个文档对象
File file = new File("E:\\黑马java\\12-lucene\\课件资料\\02.参考资料\\searchsource");
File[] files = file.listFiles();

for (File f:
        files) {
    //文件名
    String fileName=f.getName();
    //文件路径
    String filePath =f.getPath();
    //文件的内容
    String fileContent= FileUtils.readFileToString(f,"UTF-8");
    //文件的大小
    Long fileSize  =FileUtils.sizeOf(f);
    //创建Field
    //参数1:域的名称 参数2：域的内容 参数3：是否存储
    Field fieldName = new TextField("name",fileName, Field.Store.YES);
    Field fieldPath = new TextField("path",filePath,Field.Store.YES);
    Field fieldContent = new TextField("content",fileContent,Field.Store.YES);
    Field fieldSize = new TextField("size",fileSize+"",Field.Store.YES);

    //创建文档对象
    Document document = new Document();
    //向文档中添加域
    document.add(fieldName);
    document.add(fieldPath);
    document.add(fieldContent);
    document.add(fieldSize);
    //把文档对象写入索引库
    indexWriter.addDocument(document);
}
//关闭indexWriter
indexWriter.close();

4.2查询索引库

//1.创建一份Director对象,指定索引库的位置
Directory directory = FSDirectory.open(new File("D:\\lucene").toPath());
//2.创建一个indexReader对象
IndexReader indexReader = DirectoryReader.open(directory);
//3.创建一个IndexSearcher对象,构造方法中的参数indexReader对象。
IndexSearcher indexSearcher = new IndexSearcher(indexReader);
//4.创建一个Query对象，TermQuery
Query query = new TermQuery(new Term("content","spring"));
//5.执行查询，得到一个TopDocs对象
//参数1：查询对象  参数2：查询结果返回的最大记录数
TopDocs topDocs =indexSearcher.search(query ,10);
//6.查询结果的总记录数
System.out.println("查询记录总数："+ topDocs.totalHits);
//7.文档列表
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
//8.打印文档中的内容
for (ScoreDoc doc:
     scoreDocs) {
    //文档id
    int docId = doc.doc;
    //根据id取对象
    Document document = indexSearcher.doc(docId);
    System.out.println(document.get("name"));
    System.out.println(document.get("path"));
    System.out.println(document.get("size"));
   // System.out.println(document.get("content"));
    System.out.println("----------------------------");

}
indexReader.close();

4.3lucened的分析器的分析效果

//1.创建一个Analyzer对象,standardAnalyzer对象
Analyzer analyzer = new StandardAnalyzer();
//2.使用分析器的tokenStream方法获得一个TokenStream对象
TokenStream tokenStream = analyzer.tokenStream("","If we can only encounter each other rather than stay with each other,then I wish we had never encountered.");
//3.向TokenStream对象中设置一个引用，相当于一个指针
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
//4.调用TokenStream对象的rest方法，如果不调用抛异常
tokenStream.reset();
//5.使用while循环打印
while (tokenStream.incrementToken()){
        System.out.println(charTermAttribute.toString());
}

tokenStream.close();