检索

导读

在这里插入图片描述

基础

  1. 有序数组:随机访问性,插入慢

  2. 链表:动态修改性,查找慢,o(n)
    优化

  3. 链表 --》二叉检索树 --》再优化(保持平衡)–》AVL树和红黑树

  4. 跳表

  5. hash
    (数据和链表的组合),冲突多时,链表优化,jdk8是转为红黑树
    缺点:空间大,范围查找不好

  6. 快速判断(判断是否存在)
    1.1 位图
    1.2 布隆过滤器(有多个hash函数)

  7. 倒排索引
    1.1 正排索引
    在这里插入图片描述
    1.2 倒排索引
    在这里插入图片描述

实战

mysql(B+树)写少读多

基础
磁盘读写以块为单位,一个块有多个扇区
优化

数据多,放在磁盘,磁盘慢
–》数据和索引分离(索引小,减少磁盘读写)
–》 索引采用树形结构(数组变更不方便,hash不适合范围查询)
–》 索引的一个节点放多个数据,等于一个块的大小(减少树深度,减少磁盘读写)
–》内部节点只存指针,叶子结点存数据(减少树深度)同层节点双向链表(范围查找)

在这里插入图片描述

nosql(LSM树,写多读少,尤其日志和监控系统)

索引分为两部分,内存和磁盘,内存达到阈值(批量写入,减少随机访问)进行归并(归并使用的是归并排序)
在这里插入图片描述

搜索引擎(倒排索引)

搜索引擎的索引

词典文件(关键词的list)映射 倒排文件
在这里插入图片描述
基于倒排索引 --》 关键字(搜索的key)可以在内存中使用hash映射关键字和倒排文件 --》(关键字也很多,放入磁盘 )可以通过b+树快速定位
在这里插入图片描述
文件比较大
大文件拆分,生成磁盘上多个倒排文件,然后基于key进行归并排序
posting list比较大的话可以基于B+树进行索引

索引更新

小规模使用double buffer --》 全量加增量 --》增量索引到上限后,通过在合并(归并)或者滚动合并的方式(滚动就是先跟新天级别的,再更新周级别的,更新也采用合并的方法)更新全量索引
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

搜索索引拆分

多机器提高吞吐,内存多了提高查询速度
水平拆分:拆分posting list(查询需要到多台机器再汇总)
垂直拆分:拆分词典(posting list比较长,性能可能不好)

搜索top k顺序

选相关性高的,逐个计算,选出top
在这里插入图片描述

  1. TF-IDF
  2. BM25算法,实际中使用,对TF-IDF的升级,加了一些可以调整的因子
  3. 机器学习,加入更多的因子,机器利用训练数据计算各个因子的权重

非精准top k(基于离线计算)

快速选出质量足够高的k1个,不一定精准,然后对这k1个使用精准top k进行打分排序,返回
非精准原理:计算放到离线,倒排索引存的不是相关性的文档list,而是网站静态质量分或者词频,或者类似的加上权重的计算
在这里插入图片描述

空间检索(四叉树,前缀树)

查询最近的

非精准
区域编码,然后算出自己的区域,查出所有该区域的人,逐个计算位置
f(区域)=该区域下的所有人
在这里插入图片描述
精准查询
计算出区域及其相临接的8个区域内的人
在这里插入图片描述

地理上
使用二进制对经纬度编码,二进制位不好查看,通过GeoHash对映成字符串

查询满足个数的最近的

实际上是对区域数据的查找
在这里插入图片描述
在这里插入图片描述
第二种缺点是扩大范围时,每个层级都要存储满足条件数据的倒排表,空间浪费

利用四叉树(因为二维的四个象限)存储区域数据**

在这里插入图片描述
对应
在这里插入图片描述
很多叶子节点对应的区域可能没数据,使用非满四叉树动态分裂
在这里插入图片描述

四叉树

四叉树既一种前缀树,也叫字典树,四叉树对应二维的四个象限,还有三维的八叉树及多维的k-d树

过滤相似文章(对文章做局部敏感hash)

多维的空间映射到一维的hash编码
在这里插入图片描述
总共有n个关键字,文章有k个关键字,那么两个文章的相似度就是n维空间,两个向量的相似度,即距离。将n维空间的进行区域划分,每个区域对应一个编码,同一区域的点就是相似的。文档计算hash结果,一样的文档结果相同,通过局部敏感哈希,相似的文章的hash值相似。通过计算hash值的比特位差异个数,判断是否相似。
在这里插入图片描述
然后基于抽屉原理进行检索
在这里插入图片描述

相似图片(聚类算法,没看)

将n维的点划分为多个类,保持向量的多维度

案例

levelDB

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值