ModaHub魔搭社区：AI原生云向量数据库MIlvus Cloud的倒置文件索引？

最新推荐文章于 2024-07-26 17:36:26 发布

ModaHub魔搭社区

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量478

点赞数

分类专栏：《向量数据库指南》文章标签：机器学习 python 人工智能数据库 AI原生向量数据库向量数据库 Milvus Cloud

LCHub

本文链接：https://blog.csdn.net/qinglingye/article/details/131653939

版权

《向量数据库指南》同时被 2 个专栏收录

487 篇文章 54 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

ModaHub魔搭社区

55 篇文章 0 订阅

订阅专栏

目录

VF

平面索引很不错，但它无法扩展。这就是向量搜索的数据结构发挥作用的地方。通过牺牲准确性来减少运行时间，以便显著提高查询速度和吞吐量。现在有很多索引策略，其中最常用的是倒置文件索引（IVF）。

抛开花哨的名字，IVF 实际上是相当简单的。IVF 通过将整个数据集按分片排列以减少整个搜索范围。所有分片都与一个中心点相关联，数据集中的每个向量都被分配到与其最近的中心点对应的分片。

如果熟悉 FAISS，你应该对上图不会陌生。这是 Voronoi 图，直观地从两个维度展示了聚类分配。上图总共有 20 个单元（聚类），每个聚类的中心点显示为一个黑点。数据集中的所有点都将落入这 20 个区域中的一个。

聚类中心点通常用一种叫做 K-means 的聚类算法来确定。K-means 是一种交互式算法，其工作原理是首先随机选择 K 个点作为一组聚类。在每次迭代中，向量数据集中的所有点都被分配到其最近的中心点，然后所有中心点被更新为每个单元的平均值。这个过程一直持续到所有点聚合——对于熟悉统计学的人来说，这个过程被称为期望最大化。

有了这些知识，让我们用 K-means 来自动确定 IVF 的中心点。我们将使用 scipy 的

了解本专栏

超级会员免费看

ModaHub魔搭社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ModaHub魔搭社区：AI原生云向量数据库MIlvus Cloud的倒置文件索引？

在本教程中，我们看了向量索引的三个单独组成部分，以及两种最常用的方法——平面索引和倒置文件索引。这是两种最基本的策略，我们后面会以此为基础再进一步深入研究更复杂的索引类型。下一个教程中，我们将继续深入研究标量量化和乘积量化的索引策略，这是 Milvus 受欢迎的两种量化策略。下次见！
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ModaHub魔搭社区 共建低代码生态

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。