检索

最新推荐文章于 2024-07-19 23:52:27 发布

big muscle

最新推荐文章于 2024-07-19 23:52:27 发布

阅读量136

点赞数

分类专栏：数据结构

本文链接：https://blog.csdn.net/devilhai/article/details/113958130

版权

数据结构专栏收录该内容

6 篇文章 0 订阅

订阅专栏

导读

在这里插入图片描述

基础

有序数组：随机访问性，插入慢
链表：动态修改性，查找慢，o(n)
优化：
链表 --》二叉检索树 --》再优化（保持平衡）–》AVL树和红黑树
跳表
hash
（数据和链表的组合），冲突多时，链表优化，jdk8是转为红黑树
缺点：空间大，范围查找不好
快速判断（判断是否存在）
1.1 位图
1.2 布隆过滤器（有多个hash函数）
倒排索引
1.1 正排索引

1.2 倒排索引

实战

mysql（B+树）写少读多

基础
磁盘读写以块为单位，一个块有多个扇区
优化

数据多，放在磁盘，磁盘慢
–》数据和索引分离（索引小，减少磁盘读写）
–》索引采用树形结构（数组变更不方便，hash不适合范围查询）
–》索引的一个节点放多个数据，等于一个块的大小（减少树深度，减少磁盘读写）
–》内部节点只存指针，叶子结点存数据（减少树深度）同层节点双向链表（范围查找）

在这里插入图片描述

nosql（LSM树，写多读少，尤其日志和监控系统）

索引分为两部分，内存和磁盘，内存达到阈值（批量写入，减少随机访问）进行归并（归并使用的是归并排序）
在这里插入图片描述

搜索引擎（倒排索引）

搜索引擎的索引

词典文件（关键词的list）映射倒排文件
在这里插入图片描述
基于倒排索引 --》关键字（搜索的key）可以在内存中使用hash映射关键字和倒排文件 --》（关键字也很多，放入磁盘）可以通过b+树快速定位

文件比较大
大文件拆分，生成磁盘上多个倒排文件，然后基于key进行归并排序
posting list比较大的话可以基于B+树进行索引

索引更新

小规模使用double buffer --》全量加增量 --》增量索引到上限后，通过在合并（归并）或者滚动合并的方式（滚动就是先跟新天级别的，再更新周级别的，更新也采用合并的方法）更新全量索引
在这里插入图片描述

在这里插入图片描述

搜索索引拆分

多机器提高吞吐，内存多了提高查询速度
水平拆分：拆分posting list（查询需要到多台机器再汇总）
垂直拆分：拆分词典（posting list比较长，性能可能不好）

搜索top k顺序

选相关性高的，逐个计算，选出top
在这里插入图片描述

TF-IDF
BM25算法，实际中使用，对TF-IDF的升级，加了一些可以调整的因子
机器学习，加入更多的因子，机器利用训练数据计算各个因子的权重

非精准top k（基于离线计算）

快速选出质量足够高的k1个，不一定精准，然后对这k1个使用精准top k进行打分排序，返回
非精准原理：计算放到离线，倒排索引存的不是相关性的文档list，而是网站静态质量分或者词频，或者类似的加上权重的计算
在这里插入图片描述

空间检索（四叉树，前缀树）

查询最近的

非精准
区域编码，然后算出自己的区域，查出所有该区域的人，逐个计算位置
f(区域)=该区域下的所有人
在这里插入图片描述
精准查询
计算出区域及其相临接的8个区域内的人

地理上
使用二进制对经纬度编码，二进制位不好查看，通过GeoHash对映成字符串

查询满足个数的最近的

实际上是对区域数据的查找
在这里插入图片描述

第二种缺点是扩大范围时，每个层级都要存储满足条件数据的倒排表，空间浪费

利用四叉树（因为二维的四个象限）存储区域数据**

在这里插入图片描述
对应

很多叶子节点对应的区域可能没数据，使用非满四叉树动态分裂

四叉树

四叉树既一种前缀树，也叫字典树，四叉树对应二维的四个象限，还有三维的八叉树及多维的k-d树

过滤相似文章（对文章做局部敏感hash）

多维的空间映射到一维的hash编码
在这里插入图片描述
总共有n个关键字，文章有k个关键字，那么两个文章的相似度就是n维空间，两个向量的相似度，即距离。将n维空间的进行区域划分，每个区域对应一个编码，同一区域的点就是相似的。文档计算hash结果，一样的文档结果相同，通过局部敏感哈希，相似的文章的hash值相似。通过计算hash值的比特位差异个数，判断是否相似。
在这里插入图片描述
然后基于抽屉原理进行检索