搜索背景
任何一个软件,都具备了搜索功能
- 直播网站:主播,视频名字,标题等
- 外卖软件:商铺,食品名
搜索数据的需求特点 - 数据量大
- 要求速度快
- 要求准确
- 具备丰富的搜索功能
传统检索技术的瓶颈
文件系统检索
word文档,linux的vim编辑器,底层逻辑是将全部文件加载到内存里面,检索时使用内存搜索数据,不能保证大量的数据
数据库检索
相比于文件内存检索,数据量有所保证,但是为了满足多方位,多功能的搜索需求,搜索速度和准确性不能保证
全文检索技术
定义
是一种基于海量数据搜索需求,能提供快速准备方便的检索技术
全文数据库是全文检索系统的主要构成部分,所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文数据库无疑不是海量信息数据库。
检索系统架构(百度搜索引擎为例)
- 一个完整的检索系统由三部分包含
- 数据采集:数据源是分散的,需要手机到一起
- 数据整理:采集之后的数据是非结构化的整体,不能直接使用,必须经过整理计算
- 检索服务系统:经过整理的数据可以提供搜索的服务功能,给用户使用的系统
全文技术是什么?
是一个围绕这个全文数据展开的技术,可以将非结构化数据整理成全文数据库中有结构的数据,并且配合应用代码实现数据查询工作。