Lucene—全文检索工具包

最新推荐文章于 2024-07-04 14:41:08 发布

许久'

最新推荐文章于 2024-07-04 14:41:08 发布

阅读量1.1k

点赞数

文章标签：全文检索 lucene java

许久

本文链接：https://blog.csdn.net/qq_45246098/article/details/122506780

版权

本文详细介绍了Apache Lucene，一个强大的开源全文检索工具包，主要用于非结构化数据的全文搜索。Lucene提供了创建索引、查询索引的流程，强调了倒排索引的重要性。此外，文章还探讨了中文分词器的原理和常见类型，如IK Analyzer，并对比了Lucene全文检索与数据库查询在性能、相关度排序和准确性上的差异。

摘要由CSDN通过智能技术生成

一、Lucene简介

Lucene是Apache Jakarta家族中的⼀个开源项目，是⼀个开放源代码的全文检索引擎工具包，但它不是⼀个
完整的全文检索引擎，而是⼀个全文检索引擎的架构，提供了完整的查询引擎、索引引擎和部分文本分析引擎。
Lucene提供了⼀个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境⾥Lucene是⼀个成熟的免费开源工具，是⽬前最为流行的基于 Java 开源全文检索工具包。

数据总体分为两种：
- 结构化数据：指具有固定格式或有限长度的数据，如数据库、元数据等
- 非结构化数据：指不定⻓或⽆固定格式的数据，如邮件、word⽂档等磁盘上的⽂件
对于结构化数据的全文搜索很简单，因为数据都是有固定格式的，例如搜索数据库中数据使用SQL语句即可
对于非结构化数据，有以下两种⽅法：
- 顺序扫描法(Serial Scanning)
- 全文检索(Full-text Search)

顺序扫描法：如果要找包含某⼀特定内容的⽂件，对于每⼀个文档，从头到尾扫描内容，如果此文档包含此字符串，则此文档为我们要找的⽂件，接着看下⼀个⽂件，直到扫描完所有的⽂件，因此速度很慢。

全文检索：将非结构化数据中的⼀部分信息提取出来，重新组织，使其变得具有⼀定结构，然后对此有⼀定结构的数据进行搜索，从而达到搜索相对较快的⽬的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引

二、Lucene全文检索流程

在这里插入图片描述

2.1 创建索引

获得原始文档
原始⽂档是指要索引和搜索的内容。原始内容包括互联⽹上的网页、数据库中的数据、磁盘上的文件等
创建文档对象

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Lucene—全文检索工具包

一、Lucene简介Lucene是Apache Jakarta家族中的⼀个开源项目，是⼀个开放源代码的全文检索引擎工具包，但它不是⼀个完整的全文检索引擎，而是⼀个全文检索引擎的架构，提供了完整的查询引擎、索引引擎和部分文本分析引擎。Lucene提供了⼀个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境⾥Lucene是⼀个成熟的免费开源工具，是⽬前最为流行的基于 Java 开源全文检索工具包。数据总体分为两种：结构化数据：指具有固定格式或有限长度的数据，如数据库、元数据等
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。