分布式搜索引擎面试题1

本文介绍了Lucene作为全文检索库的基本概念,全文检索的原理,以及与Solr的关系。重点讨论了Lucene的底层原理,特别是倒排索引的概念,与正排索引进行了对比,帮助理解搜索引擎的工作方式。
摘要由CSDN通过智能技术生成
1.Lucene是什么?

Lucene是一套用于全文检索和搜索的开放源代码程序库。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。

2.全文检索是什么?

全文检索首先将要查询的目标文档中的词提取出来,组成索引,通过查询索引达到搜索目标文档的目的。这种先建立索引,再对索引进行搜索的过程就叫全文检索。

全文检索大体分两个过程,索引创建(Indexing)搜索索引(Search)索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。搜索索引:通过用户的查询请求搜索创建的索引,然后返回查询结果的过程。

说到结构化和非结构化数据,而我们生活中的数据分为结构化数据非结构化数据

  • 结构化数据:具有固定格式或有限长度的数据,可以用二维表结构来逻辑表达实现的,如数据库,元数据等。

  • 非结构化数据:指不定长或无固定格式的数据,如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。也叫全文数据。

对于结构化数据的搜索:如对数据库的搜索,用 SQL 语句。再如对元数据的搜索,如利用windows 搜索对文件名,类型,修改时间进行搜索等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值