2021-10-13----全文检索技术

搜索背景

任何一个软件,都具备了搜索功能

  • 直播网站:主播,视频名字,标题等
  • 外卖软件:商铺,食品名
    搜索数据的需求特点
  • 数据量大
  • 要求速度快
  • 要求准确
  • 具备丰富的搜索功能

传统检索技术的瓶颈

文件系统检索

word文档,linux的vim编辑器,底层逻辑是将全部文件加载到内存里面,检索时使用内存搜索数据,不能保证大量的数据

数据库检索

相比于文件内存检索,数据量有所保证,但是为了满足多方位,多功能的搜索需求,搜索速度和准确性不能保证

全文检索技术

定义

是一种基于海量数据搜索需求,能提供快速准备方便的检索技术

全文数据库是全文检索系统的主要构成部分,所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文数据库无疑不是海量信息数据库。

检索系统架构(百度搜索引擎为例)

  • 一个完整的检索系统由三部分包含
    • 数据采集:数据源是分散的,需要手机到一起
    • 数据整理:采集之后的数据是非结构化的整体,不能直接使用,必须经过整理计算
    • 检索服务系统:经过整理的数据可以提供搜索的服务功能,给用户使用的系统
      在这里插入图片描述
      全文技术是什么?
      是一个围绕这个全文数据展开的技术,可以将非结构化数据整理成全文数据库中有结构的数据,并且配合应用代码实现数据查询工作。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值