导读
基础
-
有序数组:随机访问性,插入慢
-
链表:动态修改性,查找慢,o(n)
优化: -
链表 --》二叉检索树 --》再优化(保持平衡)–》AVL树和红黑树
-
跳表
-
hash
(数据和链表的组合),冲突多时,链表优化,jdk8是转为红黑树
缺点:空间大,范围查找不好 -
快速判断(判断是否存在)
1.1 位图
1.2 布隆过滤器(有多个hash函数) -
倒排索引
1.1 正排索引
1.2 倒排索引
实战
mysql(B+树)写少读多
基础
磁盘读写以块为单位,一个块有多个扇区
优化
数据多,放在磁盘,磁盘慢
–》数据和索引分离(索引小,减少磁盘读写)
–》 索引采用树形结构(数组变更不方便,hash不适合范围查询)
–》 索引的一个节点放多个数据,等于一个块的大小(减少树深度,减少磁盘读写)
–》内部节点只存指针,叶子结点存数据(减少树深度)同层节点双向链表(范围查找)
nosql(LSM树,写多读少,尤其日志和监控系统)
索引分为两部分,内存和磁盘,内存达到阈值(批量写入,减少随机访问)进行归并(归并使用的是归并排序)
搜索引擎(倒排索引)
搜索引擎的索引
词典文件(关键词的list)映射 倒排文件
基于倒排索引 --》 关键字(搜索的key)可以在内存中使用hash映射关键字和倒排文件 --》(关键字也很多,放入磁盘 )可以通过b+树快速定位
文件比较大
大文件拆分,生成磁盘上多个倒排文件,然后基于key进行归并排序
posting list比较大的话可以基于B+树进行索引
索引更新
小规模使用double buffer --》 全量加增量 --》增量索引到上限后,通过在合并(归并)或者滚动合并的方式(滚动就是先跟新天级别的,再更新周级别的,更新也采用合并的方法)更新全量索引
搜索索引拆分
多机器提高吞吐,内存多了提高查询速度
水平拆分:拆分posting list(查询需要到多台机器再汇总)
垂直拆分:拆分词典(posting list比较长,性能可能不好)
搜索top k顺序
选相关性高的,逐个计算,选出top
- TF-IDF
- BM25算法,实际中使用,对TF-IDF的升级,加了一些可以调整的因子
- 机器学习,加入更多的因子,机器利用训练数据计算各个因子的权重
非精准top k(基于离线计算)
快速选出质量足够高的k1个,不一定精准,然后对这k1个使用精准top k进行打分排序,返回
非精准原理:计算放到离线,倒排索引存的不是相关性的文档list,而是网站静态质量分或者词频,或者类似的加上权重的计算
空间检索(四叉树,前缀树)
查询最近的
非精准
区域编码,然后算出自己的区域,查出所有该区域的人,逐个计算位置
f(区域)=该区域下的所有人
精准查询
计算出区域及其相临接的8个区域内的人
地理上
使用二进制对经纬度编码,二进制位不好查看,通过GeoHash对映成字符串
查询满足个数的最近的
实际上是对区域数据的查找
第二种缺点是扩大范围时,每个层级都要存储满足条件数据的倒排表,空间浪费
利用四叉树(因为二维的四个象限)存储区域数据**
对应
很多叶子节点对应的区域可能没数据,使用非满四叉树动态分裂
四叉树
四叉树既一种前缀树,也叫字典树,四叉树对应二维的四个象限,还有三维的八叉树及多维的k-d树
过滤相似文章(对文章做局部敏感hash)
多维的空间映射到一维的hash编码
总共有n个关键字,文章有k个关键字,那么两个文章的相似度就是n维空间,两个向量的相似度,即距离。将n维空间的进行区域划分,每个区域对应一个编码,同一区域的点就是相似的。文档计算hash结果,一样的文档结果相同,通过局部敏感哈希,相似的文章的hash值相似。通过计算hash值的比特位差异个数,判断是否相似。
然后基于抽屉原理进行检索
相似图片(聚类算法,没看)
将n维的点划分为多个类,保持向量的多维度