矢量数据库对比和选择指南

最新推荐文章于 2024-11-01 12:20:35 发布

数据派THU

最新推荐文章于 2024-11-01 12:20:35 发布

阅读量229

点赞数

文章标签：数据库

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247610570&idx=3&sn=246d361cbee01e5657f2ccde5d2ed163&chksm=e9e03941de97b0579d56c4c5d58410740afb4d28d924a2a0933eb6c75cbe8e267113da1fded4&scene=126&sessionid=0

版权

来源：DeepHub IMBA
本文约3400字，建议阅读6分钟
本文将研究存储/检索向量数据和执行相似性搜索的实用方法。

矢量数据库是为实现高维矢量数据的高效存储、检索和相似性搜索而设计。使用一种称为嵌入的过程，将向量数据表示为一个连续的、有意义的高维向量。

本文将研究存储/检索向量数据和执行相似性搜索的实用方法，在我们深入研究之前，首先介绍矢量数据库的两个关键功能：

1、执行搜索的能力

当给定查询向量时，向量数据库可以根据指定的相似度度量(如余弦相似度或欧几里得距离)检索最相似的向量。这允许应用程序根据它们与给定查询的相似性来查找相关项或数据点。

2、高性能

矢量数据库通常使用索引技术，比如近似最近邻(ANN)算法来加速搜索过程。这些索引方法旨在降低在高维向量空间中搜索的计算复杂度，而传统的方法如空间分解由于高维而变得不切实际。

简介

矢量数据库领域现在正在急速的扩展，如何权衡选择呢，这里我整理了5个主要的方向：

纯矢量数据库，比如Pinecone也是建立在下文Faiss之上的
全文搜索数据库，如ElasticSearch，以前是作为搜索引擎现在增加了矢量存储和检索的功能
矢量库，如Faiss, Annoy和Hnswlib，还不能作为数据库，只是矢量的处理
支持矢量的NoSQL数据库，如MongoDB，Cosmos DB和Cassandra，都是老牌的数据存储，但是加入了矢量的功能
支持矢量的SQL数据库，如SingleStoreDB或PostgreSQL，与上面不同的是这些数据库支持SQL语句

除了上面提到的五种主要方法外，还有如Vertex AI和Databricks，它们的功能超越了数据库，我们不进行讨论。

1、纯矢量数据库

纯矢量数据库是专门为存储和检索矢量而设计的。包括Chroma, LanceDB, Marqo, Milvus/ Zilliz, Pinecone, Qdrant, Vald, Vespa, Weaviate等。数据是基于对象或数据点的向量表示来组织和索引。这些向量可以是各种类型数据的数字表示，包括图像、文本文档、音频文件或任何其他形式的结构化或非结构化数据。

优点

利用索引技术进行高效的相似度搜索
大型数据集和高查询工作负载的可伸缩性
支持高维数据
支持基于HTTP和json的api
原生支持向量运算，包括加法，减法，点积，余弦相似度

缺点

纯矢量数据库:纯矢量数据库可以存储矢量和一些元数据，但是其他就不行了。对于大多数用例，可能还需要包括诸如实体、属性和层次结构(图)、位置(地理空间)等描述的数据，这就要其他存储的整合。

有限或没有SQL支持:纯矢量数据库通常使用自己的查询语言，这使得很难对矢量和相关信息运行传统的分析，也很难将矢量和其他数据类型结合起来。

没有完整的CRUD:纯矢量数据库并不是真正为创建、更新和删除操作而设计的。所以必须首先对数据进行矢量化和索引，这些数据库的重点是获取向量数据，并基于向量相似度查询最近邻，而索引是很耗时的。索引矢量数据计算量大、成本高、耗时长。这使得基本上无法进行实时的操作。例如，Pinecone的IMI索引(反向多索引，人工神经网络的一种变体)会产生存储开销，并且是计算密集型。它主要是为静态或半静态数据集设计的，如果经常添加、修改或删除向量，基本上不太可能。而Milvus使用的索引被称为产品量化和分层可导航小世界(HNSW)，这是一种近似的技术，在搜索准确性和效率之间进行权衡。它的索引需要配置各种参数，使用不正确的参数选择可能会影响搜索结果的质量或导致效率低下。

功能性不强:许多矢量数据库在基本特性上严重落后，包括ACID事务、灾难恢复、RBAC、元数据过滤、数据库可管理性、可观察性等。这可能会导致严重的业务问题，要解决这些问题，则需要我们自己来处理，这会导致开发量大增。

2、全文检索数据库

这类数据库包括Elastic/Lucene、OpenSearch和Solr。

优点

高可伸缩性和性能，特别是对于非结构化文本文档
丰富的文本检索功能，如内置的外语支持，可定制的标记器，词干器，停止列表和N-grams
大部分基于开源库(Apache Lucene)
成熟的且有大型集成生态系统，包括矢量库

缺点

没有优化向量搜索或相似匹配
主要设计用于全文搜索，而不是语义搜索，因此基于它构建的应用程序将不具有检索增强生成(RAG)和其他的完整上下文。为了实现语义搜索功能，这些数据库需要使用其他工具以及大量自定义评分和相关模型进行增强。
其他数据格式(图像、音频、视频)的有限应用
基本上不支持GPU

一般选择这些库的原因都是因为在以前项目上增加新的功能，并且数据量小，对主业务也不会产生多大影响时使用。如果需要重新构架大型项目，不建议使用。

3、开源矢量库

对于许多开发者来说，Faiss、Annoy和Hnswlib等开源矢量库是一个很好的起点。Faiss是一个用于密集向量相似性搜索和聚类的库。Annoy (Approximate Nearest Neighbors Oh Yeah)是一个用于人工神经网络搜索的轻量级库。Hnswlib是一个实现HNSW ANN搜索算法的库。

优点