信息检索的概述

信息检索的概述

信息过载

信息大爆炸
youtube 一分钟上传400小时视频苹果用户一分钟下载51000个应用google一分钟翻译69500000个单词siri一分钟回答错9万个问题。

总结:信息越来越多,如何迅速的定位我们需要的信息,抛弃无效的信息(搜索)

提高检索效率和生成新的检索技术,是关键;

传统检索方式

1.操作系统文件检索
直接通过操作系统搜索磁盘,全表遍历缺点:慢
文件的内存检索
word,excel,onenote,检索速度还行,文件一旦打开,文件的全部内容都加载到了内存;上限
512M;
缺点:数据量少

2.数据库检索
1like模糊查询才可以完成目前大部分检索的需求"%关键字%" “关键字%”(符合数据库最左特性查询,还是使用索引)
2索引优化(建立各种各样不同索引结构的索引文件,满足不同的查询条件的需求) 表格是有数据量的上限的
查询效率在临界点时,查询时间无限增加

在这里插入图片描述
缺点:数据量受限制

信息检索系统

一个完成的信息检索系统包括三部分
1信息采集
搜索引擎,通过网络爬虫技术,将公网的各个服务器的数据按照一定的规则,从万维网获取数据,单位超过亿级别,数据非常庞大;
2信息整理
爬取的这些内容,非结构化数据,无法完成任何快速搜索技术的搭建,一定经过处理,整理成有一定数据结构的数据文件才可以进行搜索的服务提供(创建索引的过程)
3接收查询
用户向检索系统发出查询请求,信息检索系统接收这个参数,在数据中获取对应的结果,返回用户;
在这里插入图片描述

全文检索的倒排索引计算方式(网页)

数据源:数据库,公网网页,各种行业中的数据,不同位置,不同系统,不同软件存储倒排索引:构成全文检索技术的创建索引文件的核心计算方法;
网页数据为例(源数据)

文章1: 马蓉和王宝强是否感情稳定
文章2: 狗仔队全程紧盯马蓉和王宝强的生活

1分词计算(一句话的分词计算,就是讲当前字符串拆分成具有最小意义的词) 文章1:(马蓉,1(频率),1(文章id)),(王宝,1,1),(王宝强,1,1),(是否,1,1),(感情,1,1)
文章2:(狗仔,1,2),(全程,1,2),(紧盯,1,2),(马蓉,1,2),(王宝,1,2),(王宝强,1,2)

2分词合并
(马蓉,[2],[1,2]) (王宝,[2],[1,2]) (王宝强,[2],[1,2]),(狗仔,1,2),(全程,1,2),(紧盯,1,2),(是否,1,1),(感情,1,1)

3生成索引文件
将分词合并的结构整理成二进制格式,保存到索引数据当中.
文章1,文章2,生成对应的结构的对象(document文档对象,文档对象时数据结构中的一个数据单位)

4结构
在这里插入图片描述
最终的索引文件,经过对源数据中的数据分词计算,对象封装过程整合成的上图结构,一个分词结果直接指向一批文档集合(document的集合)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值