创建LLM应用程序，Python向量数据库和向量索引指南

最新推荐文章于 2024-05-10 10:22:36 发布

Python学研大本营

最新推荐文章于 2024-05-10 10:22:36 发布

阅读量1.2k

点赞数 26

文章标签：数据库 python oracle

本文链接：https://blog.csdn.net/weixin_39915649/article/details/134869935

版权

本文将介绍Python向量数据库和向量索引：创建LLM应用程序。

微信搜索关注《Python学研大本营》，加入读者群，分享更多精彩

一、简介

向量数据库实现了快速的相似性搜索，并可在数据点之间进行扩展。对于LLM应用程序，通过将向量附加到现有存储上，向量索引可以简化全向量数据库的架构。选择索引还是数据库取决于专业需求、现有基础设施和更广泛的企业需求。

由于使用其硬件创建的生成式AI应用程序，Nvidia经历了显著增长。另一项软件创新——向量数据库，也在这股生成式AI浪潮中蓬勃发展。

开发人员正在使用Python创建基于向量数据库的AI应用程序。通过将数据编码为向量，他们可以利用向量空间的数学属性，在非常大的数据集上实现快速的相似性搜索。

接下来跟随本文从基础知识开始！

二、向量数据库基础知识

向量数据库将数据以数值向量的形式存储在坐标空间中。这使得可以通过诸如余弦相似性之类的运算来计算向量之间的相似性。

最接近的向量代表最相似的数据点。与标量数据库不同，向量数据库针对相似性搜索进行了优化，而不是复杂的查询或事务处理。

即使在数十亿个数据点上，检索相似向量也只需要毫秒级而不是分钟级。

向量数据库通过建立索引高效地查询接近的向量。这在某种程度上类似于文本搜索引擎为快速全文搜索而对文档建立索引的方式。

三、与传统数据库相比，向量搜索为开发人员提供的优势

对于开发人员来说，向量数据库提供了以下优势：

快速的相似性搜索——在毫秒级别查找相似向量
对动态数据的支持——持续更新带有新数据的向量
可扩展性——在多台机器上扩展向量搜索
灵活的架构——向量可以存储在本地、云对象存储或托管数据库中
高维度——每个向量可以索引数千个维度
应用程序接口（API）——如果选择使用托管的向量数据库，通常会提供清晰的查询API以及与一些现有数据科学工具包或平台的集成。

向量搜索支持的常见用例示例（向量数据库的主要特色功能）：

视觉搜索——查找相似的产品图像
推荐——推荐、建议内容
聊天机器人——将查询与意图相匹配
搜索——从文本向量中提取、显示相关文档

向量搜索开始受到重视的用例示例：

异常检测——识别异常向量
药物发现——通过属性向量关联分子

四、什么是Python向量数据库？

包括支持向量数据库完整生命周期的Python库的向量数据库被称为Python向量数据库。数据库本身并不需要用Python创建。

五、这些Python向量数据库应该支持哪些功能？

对向量数据库的调用可以分为两类：与数据相关的调用和与管理相关的调用。好消息是，它们遵循与传统数据库类似的模式。

库应该支持的数据相关函数：

库应该支持的标准管理相关函数：

现在跟随本文进一步讨论在这些数据库之上创建LLM应用程序的高级概念。

六、创建LLM应用程序的架构

在深入了解基于向量搜索的LLM应用程序的架构之前，首先从工作流程的角度了解一下其中涉及的内容。

典型的工作流程包括：

丰富或清理数据。这是一个轻量级的数据转换步骤，用于提高数据质量和保持一致的内容格式。这也是数据可能需要丰富的地方。
通过模型将数据编码为向量。模型中包含一些转换器（例如句子转换器）。
将向量插入向量数据库或向量索引（稍后将对此进行说明）。
通过Python API进行搜索。
文档编排工作流程。
在应用程序和用户界面（例如聊天用户界面）中测试和可视化结果。

现在，看看如何使用不同的架构组件来启用这个工作流程的不同部分。

对于此步骤1），可能需要开始从其他源系统（包括关系数据库或内容管理系统）获取元数据。

对于上述步骤2），通常首选预训练模型。OpenAI模型是通过托管服务提供的最受欢迎的模型。出于隐私和安全原因，可以托管本地模型。

对于步骤3），如果需要进行大规模相似性搜索（例如在包含十亿条记录的数据集中进行搜索），则需要一个向量数据库或向量索引。从企业的角度来看，在进行“搜索”之前，通常需要了解更多的背景情况。

对于上述步骤4），好消息是公开的搜索通常遵循类似的模式。类似以下代码的形式：

来自Pinecone

【Pinecone】：https://docs.pinecone.io/docs/metadata-filtering#:~:text=eq%22%3A%20%5B%22comedy%22%2C%20%22documentary%22%5D%7D%7D-,Inserting%20metadata%20into%20an%20index,-Metadata%20can%20be

index = pinecone.Index("example-index")

index.upsert([
    ("A", [0.1, 0.1, 0.1, 0.1], {"genre": "comedy", "year": 2020}),
)


index.query( 
vector=[0.1, 0.1, 0.1, 0.1], 
filter={ 
"genre": {"$eq": "documentary"}, 
"year": 2019 
}, 
top_k=1,
)

这里有一行很有意思：

filter={ 
"genre": {"$eq": "documentary"}, 
"year": 2019 
},

它真正地过滤了接近“genre”和“year”的向量结果。还可以按概念或主题过滤向量。

在企业环境中，现在的挑战在于它还包括其他业务过滤条件。解决从数据源获取的数据缺乏建模的问题很重要（考虑表结构和元数据）。在这种情况下，改进文本的准确性，减少与结构化数据相矛盾的不正确表达是很重要的。这种情况下需要一个“数据管道”策略，并且企业“内容匹配”开始变得重要起来。

对于步骤5），除了缩放摄取的常规挑战之外，不断变化的语料库也有其自身的挑战。新文档可能需要重新编码和重新索引整个语料库，以保持向量的相关性。

对于步骤6），这是一个全新的领域，需要在测试相似性水平的基础上采用人工参与的方法，以确保在搜索的各个方面都具有质量。

自动化搜索评分以及不同类型的上下文评分并不是一项容易完成的任务。

七、Python向量索引：现有数据库中更简单的向量搜索替代方案。

向量数据库是一个复杂的系统，它可以实现上述示例中的上下文搜索以及所有其他数据库功能（创建、插入、更新、删除、管理等）。

向量数据库的示例包括Weaviate和Pinecone。这两者都公开了Python API。

有时，一个更简单的设置就足够了。作为一种更轻量级的替代方案，可以使用你已经使用的任何存储方式，并在此基础上添加一个基于向量的索引。该向量索引仅用于检索具有上下文的搜索查询，例如用于生成式人工智能。

在向量索引设置中，可以拥有：

通常的数据存储（例如PostgreSQL或存储在文件中的磁盘目录）提供所需的基本操作：创建、插入、更新、删除。
你的向量索引，它可以在数据上进行快速的基于上下文的搜索。

独立的Python库可以为你实现向量索引，包括FAISS、Pathway LLM和Annoy。

好消息是，向量数据库和向量索引的LLM应用程序工作流程是相同的。主要区别在于，除了使用Python向量索引库外，还可以继续使用现有的数据库进行“正常”的数据操作和数据管理。例如，如果使用PostgreSQL，则可以使用Psycopg，如果存储数据在文件中，则可以使用标准的Python“fs”模块。

向量索引的支持者主要关注以下优势：