最近比较火的向量数据库,究竟是什么

到了现在,随着去年ChatGPT的爆火,向量数据库从幕后正式走向了前台。实际上,向量数据库并不是今年或近两年才出现的新事物,它已经存在很长时间了,但去年ChatGPT的火爆让它真正被大家所了解。

一个完整的AI应用包含了4个重要的环节:

第一个环节是关于大语言模型(LLM),这是大家在AI体系中接触最多的部分;

第二个环节是与模型相关的Embedding;

第三个环节是向量数据库;

最后一个环节是Promote Engineer。

这些环节共同构成了开发一个完整的AI应用所必需的知识体系。
二)向量是什么

我们首先探讨一下向量究竟是什么,为了更好地理解,这里我举一个简单的例子。对于从事开发或接触过计算机的朋友们来说,大家都知道颜色的表示法。我们都知道,基础颜色是红色、绿色和蓝色。任何一种颜色都可以通过这三种颜色的组合来得到,这就是一个非常经典的向量表示案例。

在这个例子中,我们看到了几个维度。首先,红、绿、蓝这三种颜色可以被视为一个基准维度,它们构成了一个三维坐标系。这个坐标系可以用来定位一个点。当我们混合这三种颜色时,我们实际上是在这个坐标系上从一个点移动到另一个点。这个移动的过程可以看作是一个向量。
向量数据库中存储的数据实际上是一堆浮点数,这些浮点数排列在一起就像一个数组。这些浮点数的个数在向量数据库中被称为维度。通过这些维度,向量数据库可以存储和检索海量的高维数据,支持复杂的查询和分析操作。

总结一下,向量数据库是一种特殊的数据库,它具备数据存储和读取的基础能力,同时也有一个特殊的查询操作,即向量检索。

与存储标量值的传统数据库不同,向量数据库专门设计用于处理多维数据点(通常称为向量)。这些向量表示多个维度的数据,可以被认为是指向空间中特定方向和大小的箭头。

向量检索是通过向量的匹配来找到最相似的数据,而不仅仅是简单地查出一行数据。除了这个特殊的功能,向量数据库还具备了数据库的基本特征:数据的改查。对于开发者来说,改查是最基本的需求,而向量数据库也必须具备这些基本功能。

此外,一些向量数据库产品还需要与结构化数据进行结合。在关系模型和关系数据库中,有些需求需要与向量进行结合才能更好地满足。且向量数据库还能够利用硬件特性来加速计算过程,例如使用CPU、GPU等显卡来提高计算效率。

对于一个成熟的数据库,特别是分布式产品,它还必须具备高可用性和分布式的弹性能力。因此,在选择和使用向量数据库时,我们需要考虑这些特点以及我们的具体需求,以便更好地实现我们的目标。
3个常见向量数据库
这个列表没有特别的顺序。
1、Chroma
2.Pinecone
3.Weaviate是一个开源向量数据库。它可以无缝扩展到数十亿个数据对象。Weaviate的一些关键特性是:
速度:Weaviate可以在几毫秒内从数百万个对象中快速搜索出最近的10个邻居。
灵活性:使用Weaviate,可以在导入或上传自己的数据时对数据进行矢量化,可以利用与OpenAI, Cohere, HuggingFace等平台集成的模块。
快速部署:从原型到大规模生产,Weaviate都强调可伸缩性、复制和安全性。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字天下

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值