向量检索-用最简单的语言

生存后才能理想

于 2024-01-11 10:19:21 发布

阅读量413

点赞数 10

文章标签：算法人工智能支持向量机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71917549/article/details/135519859

版权

看之前首先要懂两个基本条件：

1. 什么是向量

2. 会使用向量的检索

3. 知道至少一种向量的索引

这里我们拿比较的流行的HNSW算法来进行分析：

最直接的做法是根据向量在给定数据集中采用KNN来找到K个最近的向量。但在实际应用中，待检索的数据往往是千万甚至亿级，KNN的计算量过大。因此，通常采用ANN（Approximate Nearest Neighbor，相似近邻）来快速相似检索

相似性检索：

在NSW中，构建图的阶段通过节点的随机插入来引入随机性，构建出一个small world graph，从而实现快速检索。但NSW构造的图并不稳定，节点之间的差异较大：

先插入的顶点，其连接的邻居节点，基本都比较远（弱连接属性强）
后插入的顶点，其连接的邻居节点，基本都比较近（弱连接属性弱）
对于具有聚类效应的点，由于后续插入的点可能都和其建立连接，对应节点的度可能会比较高

如何构造具有更稳定的small world graph呢？HNSW算法就在NSW基础之上引入了分层图的思想，通过对图进行分层，实现由粗到细的检索。

1、图构造

HNSW在构造图时如下图所示：

核心如下：

layer=0层包含了数据集中的所有点
layer=l层是以50%的概率随机从layer=l-1层中选择的点构成的。因此，最大层数为
插入构图时，先计算新顶点可以深入到第几层（），在每层的NSW图中查找m个近邻，然后连接它们

2、图检索

对HNSW进行查询时，从最高层开始检索，逐层往下，从而实现快速搜索

总结：想要更高性能的相似性检索需要需要依赖索引，比如HNSW，当我们使用索引检索时它和暴力检索不同的的是：

1. 暴力检索会遍历所有节点，然后进行一一返回

2. 使用索引检索时，它返回的是ANN 所有的近邻节点，返回近邻节点的时候它并不会按照从最相似的开始返回，而是将所有近邻结果全部返回，返回之后在进行排序。

3. 要返回多少近邻节点是算法中的参数，可以进行调节。当然，也可以返回之后在进行过滤。

生存后才能理想

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
向量检索-用最简单的语言

看之前首先要懂两个基本条件：1. 什么是向量2. 会使用向量的检索3. 知道至少一种向量的索引这里我们拿比较的流行的HNSW算法来进行分析：最直接的做法是根据向量在给定数据集中采用KNN来找到K个最近的向量。但在实际应用中，待检索的数据往往是千万甚至亿级，KNN的计算量过大。
复制链接

扫一扫

生存后才能理想 CSDN认证博客专家 CSDN认证企业博客

码龄2年

159: 原创

37万+: 周排名

5万+: 总排名

3万+: 访问

: 等级

1642: 积分

23: 粉丝

44: 获赞

6: 评论

52: 收藏

私信

关注

热门文章

最新评论

[算法]双链表
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
多态数组的简单代码教学
向着太阳迎着光_: 写的太棒了把，忍不住三连，期待关注支持
java 剪刀，石头，布，游戏
「已注销」: [code=html] 您好，发现您的文章的质量非常高，内容写的非常好：故诚邀您参加成长一夏活动，有勋章/限量T恤/实体证书领取哦~ 活动一：https://bbs.csdn.net/topics/607372050 活动二：https://bbs.csdn.net/topics/607372206 参加多个活动，奖励可叠加，形式超简单，评论区有详细参与方式说明 [/code]
汉诺塔问题 java
不才不才不不才: 很厉害
java编码第一次
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。