ElasticSearch补充(1) -- Lucene全文检索库

本文介绍了全文检索的概念,区分了结构化和非结构化数据,并探讨了使用Lucene进行全文检索的优势。通过一个美文搜索案例,详细阐述了如何使用Lucene建立索引、查询关键字,并引入了IK分词器解决中文搜索问题。同时,文章讨论了企业在实际应用中不直接使用Lucene的原因,包括其分布式支持不足、区间搜索性能和可靠性问题。
摘要由CSDN通过智能技术生成

大家都知道ES是基于Lucene的,说这么多ES,肯定还是得了解一下Lucene的

1 什么是全文检索

先说全文检索

1.1 结构化数据与非结构化数据

我们生活中的数据总体分为两种:结构化数据和非结构化数据。

  • 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等
  • 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件

1.2 搜索结构化数据和非结构化数据

  • 使用SQL语言专门搜索结构化的数据
  • 使用ES/Lucene/Solor建立倒排索引,根据关键字就可以搜索一些非结构化的数据

1.3 全文检索

全文检索是指:

  • 通过一个程序扫描文本中的每一个单词,针对单词建立索引,并保存该单词在文本中的位置、以及出现的次数
  • 用户查询时,通过之前建立好的索引来查询,将索引中单词对应的文本位置、出现的次数返回给用户,因为有了具体文本的位置,所以就可以将具体内容读取出来了
  • 类似于通过字典中的检索字表查字的过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

erainm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值