向量数据库是如何工作的？

最新推荐文章于 2024-06-03 08:26:49 发布

公众号-芋道源码

最新推荐文章于 2024-06-03 08:26:49 发布

阅读量254

点赞数

文章标签：数据库人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUzMTA2NTU2Ng==&mid=2247574173&idx=2&sn=4e5dd9a071139a13edd138e60bf8894b&chksm=fa4bdd2ccd3c543a83a32edbd3789889d2b9edd5cd9f29478da41be210c15cf52826dfe1050f&scene=126&sessionid=0

版权

点击上方“芋道源码”，选择“设为星标”

管她前浪，还是后浪？

能浪的浪，才是好浪！

每天 10:33 更新文章，每天掉亿点点头发...

源码精品专栏

来源：twitter-thread.com/t/ZH/

1655626066331938818

向量数据库和 Embedding 是当前 AI 领域的热门话题。

Pinecone 是一家向量数据库公司，刚刚以约 10 亿美元的估值筹集了 1 亿美元。

Shopify、Brex、Hubspot 等公司都在他们的 AI 应用程序中使用向量数据库和 Embedding。那么，它们究竟是什么，它们是如何工作的，以及为什么它们在 AI 中如此重要呢？让我们一探究竟。

我们先看第一个问题，什么是 Embedding？你可能在 Twitter 上已经看到这个词被无数次提及。

简单来说，Embedding 就是一个多维向量数组，由系列数字组成 。它们能够代表任何东西，比如文本、音乐、视频等等。我们这里将主要关注文本。

创建 Embedding 的过程非常简单。这主要依靠 Embedding 模型（例如：OpenAI 的 Ada）。

你将你的文本发送给模型，模型会为你生成该数据的向量结果，这可以被存储并在之后使用。

Embedding 之所以重要，是因为它们赋予我们进行语义搜索的能力 ，也就是通过相似性进行搜索，比如通过文本的含义。

因此，在这个例子中，我们可以在一个向量空间上表示“男人”、“国王”、“女人”和“王后”，你可以非常容易地看到它们在向量空间之间的关系。

来看一个更直观的例子：

假设你是一个有一大箱玩具的小孩。现在，你想找出一些类似的玩具，比如一个玩具汽车和一个玩具巴士。它们都是交通工具，因此它们是相似的。

这就是所谓的 “语义相似性”—— 表示*某种程度上** 事物具有*相似的含义或想法 。

现在假设你有两个相关联但并不完全相同的玩具，比如一个玩具汽车和一个玩具公路。它们并不完全相同，但因为汽车通常在公路上行驶，所以它们是相互关联的。

那么，Embedding 为何如此重要呢？主要是由于大语言模型（LLM）存在上下文限制 。在一个理想的世界中，我们可以在一个 LLM 提示中放入无限数量的词语。但是，正如许多人所知，目前我们还做不到。以 OpenAI 的 GPT 为例，它限制在大约在 4096 - 32k 个 token。

因此，由于其 “内存”（即我们可以填充到其 token 的词语的数量），我们与 LLM 的交互方式受到了严重限制。这就是为什么你不能将一个 PDF 文件复制粘贴到 ChatGPT 中并要求它进行总结的原因。（当然，现在由于有了 gpt4-32k，你可能可以做到这一点了）

那么，怎么把 Embedding 和 LLM 关联起来解决 token 长度限制的问题呢？实际上，我们可以利用 Embedding，只将相关的文本注入到 LLM 的上下文窗口中。

让我们来看一个具体的例子：

假设你有一个庞大的 PDF 文件，可能是一份国会听证会的记录（呵呵）。你有点懒，不想阅读整个文件，而且由于其页数众多，你无法复制粘贴整个内容。这就是一个 Embedding 的典型使用场景。

所以你将 PDF 的文本内容先分成块，然后借助 Embedding 将文本块变成向量数组，并将其存储在数据库中。

在存储分块的向量数组时，通常还需要把向量数组和文本块之间的关系一起存储，这样后面我们按照向量检索出相似的向量数组后，能找出对应的文本块，一个参考的数据结构类似于这样：

{

[1,2,3,34]: '文本块1',
[2,3,4,56]: '文本块2',
[4,5,8,23]: '文本块3',

……



}

现在你提出一个问题：“他们对 xyz 说了什么”。我们先把问题“他们对 xyz 说了什么？”借助 Embedding 变成向量数组，比如[1,2,3]。

现在我们有两个向量：你的问题 [1,2,3] 和 PDF [1,2,3,34]，然后，我们利用相似性搜索，将问题向量与我们庞大的 PDF 向量进行比较。OpenAI 的 Embedding 推荐使用的是余弦相似度。

好了，现在我们有最相关的三个 Embedding 及其文本，我们现在可以利用这三个输出，并配合一些提示工程将其输入到 LLM 中。例如：

已知我们有上下文：文本块 1，文本块 2，文本块 3。

现在有用户的问题：他们对 xyz 说了什么？

请根据给定的上下文，如实回答用户的问题。

如果你不能回答，那么如实告诉用户“我无法回答这个问题”。

就这样，LLM 会从你的 PDF 中获取相关的文本部分，然后尝试如实回答你的问题。

这就简单的阐述了 Embedding 和 LLM 如何为任何形式的数据提供相当强大的类似聊天的能力。这也是所有那些“与你的网站/PDF/等等进行对话” 的功能如何工作的！

请注意 Embedding 并非 FINE-TUNING。

欢迎加入我的知识星球，一起探讨架构，交流源码。加入方式，长按下方二维码噢：

已在知识星球更新源码解析如下：

最近更新《芋道 SpringBoot 2.X 入门》系列，已经 101 余篇，覆盖了 MyBatis、Redis、MongoDB、ES、分库分表、读写分离、SpringMVC、Webflux、权限、WebSocket、Dubbo、RabbitMQ、RocketMQ、Kafka、性能测试等等内容。

提供近 3W 行代码的 SpringBoot 示例，以及超 4W 行代码的电商微服务项目。

获取方式：点“在看”，关注公众号并回复 666 领取，更多内容陆续奉上。

文章有帮助的话，在看，转发吧。
谢谢支持哟 (*^__^*）

公众号-芋道源码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
向量数据库是如何工作的？

点击上方“芋道源码”，选择“设为星标”管她前浪，还是后浪？能浪的浪，才是好浪！每天 10:33更新文章，每天掉亿点点头发...源码精品专栏原创 | Java 2021超神之路，很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络应用框架 Netty 源码解析消息中间件 RocketMQ 源码解析数据库中间件 Sharding-JDBC 和 MyCAT 源码解析作业调度中间件 E...
复制链接

扫一扫