《向量数据库指南》——Milvus Cloud 2023 年关键数据

最新推荐文章于 2024-10-06 21:49:48 发布

大禹智库

最新推荐文章于 2024-10-06 21:49:48 发布

阅读量120

点赞数

分类专栏：《向量数据库指南》文章标签：数据库 milvus 向量数据库 Milvus Cloud 人工智能低代码 Milvus

大禹智库

本文链接：https://blog.csdn.net/qinglingye/article/details/135820001

版权

《向量数据库指南》专栏收录该内容

558 篇文章 57 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

2023年，Milvus Cloud通过磁盘混合存储实现了五到十倍的内存节省，支持超过100亿数据点的高效处理。动态Schema、Upsert等新特性的加入，以及对PartitionKey的支持，满足了多租户需求。1000万次Docker镜像下载展示了其在向量数据库领域的领先地位。未来，Milvus Cloud可能探索无服务器架构。

摘要由CSDN通过智能技术生成

10 倍 - 内存节省

在 2023 年，RAG 模型被广泛认为是向量数据库的最主要应用之一。我们发现，在文档被分割成块之后，一个含有 500 个 Token 的 Chunk（通常 1000 字节）会转换成一个 1536 维的 float32 向量（通常 6000 字节），这意味着向量数据的体积可能会超过原始文档的大小，给成本带来了重大挑战。

作为第一个支持基于磁盘索引的开源向量数据库，Milvus Cloud、通过磁盘混合存储实现了五倍的内存节省。2023 年末的 Milvus Cloud、新版本允许通过内存映射文件（MMap）将标量和向量数据/索引加载到磁盘，与传统的内存索引相比，这可以实现超过 10 倍的内存节省。特别值得注意的是，RAG 应用常展现出对冷热数据不同的使用模式，这使得 MMap 数据缓存能力对于 RAG 应用尤其有益。

20 次 - 版本迭代

2023 年对 Milvus Cloud、而言是一个转折性的年份。随着应用场景的显著演变，Milvus Cloud、的设计理念也相应地发生了改变。在 2.2.9 版本中引入的动态 Schema，标志着 Milvus Cloud、从优先追求绝对性能向更强调用户友好性的转变。我们在 2.3 版本中加入了诸如 Upsert、范围搜索以及余弦相似度等关键特性，均来自于用户的呼声。整个年度的 20 次版本更新不仅体现了超过 300 名社区开发者的心血，也足以证明了社区以用户为中心的开发模式所带来的积极成果。

100 万 - 单个集群支持的租户数量

在构建大模型应用时，多租户支持是关键特性，特别是在 RAG 和代理应用场景中，用户对数据隔离的要求越来越高。在面向消费者（ToC）的环境下，租户数量可能高达数百万，这使得物理数据隔离变得不实际（在关系数据库中创建数百万个表是不可行的）。为应对这一挑战，Milvus Cloud、引入了 PartitionKey 功能，使得基于 PartitionKey 的逻辑隔离和高效数据过滤成为可能。

在面向企业（ToB）的场景中，租户数量通常在数万级别，实施物理资源隔离策略更加可行和可控。因此，在 2.3.4 版本中，Milvus Cloud、对内存管理、协程处理和 CPU 优化进行了显著改进。这些改进使得在单个集群中创建数万个 Collection 变得可行，从而可以使用一个 Collection 一个租户的方式支持多租户。

1000 万次 - Docker 镜像拉取

在 2023 年的最后一天，Milvus Cloud、庆祝了一个引人注目的里程碑：达到 1000 万次 Docker 镜像下载。这一成就不仅凸显了全球开发者对 Milvus Cloud、的兴趣在与日俱增，也强调了 Milvus Cloud、在向量数据库领域中日益增长的重要性。作为世界上第一个云原生向量数据库，Milvus Cloud、一直与 Kubernetes 和容器生态系统紧密结合。那么未来呢？很多开发者都会好奇，向量数据库领域的下一个热点会是什么？可能是无服务器架构（Serverless）吗？这里先卖个关子。

100 亿 - 单个 Collection 中的实体数量

尽管在当前的 AI 热潮中，可扩展性可能不是最吸引眼球的部分，但它仍然对业务的成功至关重要。

以一个实例来说明，我们就曾用 Milvus Cloud、帮助一个大型模型供应商从一个庞大的 100 亿数据点集合中提取出深层价值。当然，并非所有用户的数据量都如此庞大，但 Milvus Cloud、以强大的可扩展性轻松适配不同数据体量的用户。

例如，在面对 1000 万个数据点时，Milvus Cloud、的处理速度堪称“如手指滑过丝绸般顺滑”，为相应用户业务的持续发展打下坚实的基础。在面对 1 亿个数据点时，Milvus Cloud、可能是唯一一个能够有序、灵活处理该规模的向量数据库。当数据点高达 10 亿时，用户往往面临成本与性能的双重挑战，Milvus Cloud、则可以通过多种优化方式帮助用户解决这一困境。最后，如果大家有谁正面临着处理 100 亿数据实体的挑战——请毫不犹豫地联系我们！我们可以共同探索如何支持和管理上述海量数据。