使用 MongoDB Atlas 和 OpenAI 实现自查询向量检索

在本文中,我们将探讨如何使用 MongoDB Atlas 构建一个向量存储并结合 OpenAI 实现自查询检索。通过创建一个 MongoDB Atlas VectorStore,我们可以存储和检索文档的向量表示。这一强大功能可用于多种场景,如电影摘要检索。以下是具体的实现步骤。

技术背景介绍

MongoDB Atlas 是一种高性能的文档数据库,支持向量存储,可以借助其强大的搜索能力处理海量数据。在结合 OpenAI 的嵌入服务后,我们可以实现智能的文档检索。Langchain 提供了灵活的 API,我们将利用其构建一个自查询检索器(SelfQueryRetriever)。

核心原理解析

通过构建向量存储,文档被转换为可以进行相似度比较的嵌入向量。然后,我们可以构建自查询检索系统,根据用户输入的自然语言查询进行相关文档检索,支持复杂的过滤条件和高效查询。

代码实现演示

以下代码展示了如何使用 MongoDB Atlas 创建向量存储,并结合 OpenAI 进行自查询检索:

# 确保安装了必要的库:lark 和 pymongo
%pip install --upgrade --quiet lark pymongo

import openai
import os
from langchain_community.vectorstores import MongoDBAtlasVectorSearch
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from pymongo import MongoClient
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI

# 配置 OpenAI API 密钥
os.environ["OPENAI_API_KEY"] = "your-openai-api-key"

# 配置 MongoDB Atlas 连接
CONNECTION_STRING = "your-mongodb-atlas-connection-string"
DB_NAME = "your-database"
COLLECTION_NAME = "your-collection"
INDEX_NAME = "your-index"

# 创建 MongoDB 客户端
client = MongoClient(CONNECTION_STRING)
collection = client[DB_NAME][COLLECTION_NAME]

# 使用 OpenAI 创建嵌入
embeddings = OpenAIEmbeddings()

# 示例文档
docs = [
    Document(page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose", metadata={"year": 1993, "rating": 7.7, "genre": "action"}),
    Document(page_content="Leo DiCaprio gets lost in a dream within a dream within a dream within a ...", metadata={"year": 2010, "genre": "thriller", "rating": 8.2}),
    # 更多示例文档...
]

# 创建 VectorStore
vectorstore = MongoDBAtlasVectorSearch.from_documents(docs, embeddings, collection=collection, index_name=INDEX_NAME)

# 定义元数据字段信息
metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie", type="string"),
    AttributeInfo(name="year", description="The year the movie was released", type="integer"),
    AttributeInfo(name="rating", description="A 1-10 rating for the movie", type="float"),
]

# 文档内容描述
document_content_description = "Brief summary of a movie"

# 创建自查询检索器
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(llm, vectorstore, document_content_description, metadata_field_info, verbose=True)

# 测试检索功能
retriever.invoke("What are some movies about dinosaurs")
retriever.invoke("What are some highly rated movies (above 9)?")
retriever.invoke("I want to watch a movie about toys rated higher than 9")
retriever.invoke("What's a highly rated (above or equal 9) thriller film?")
retriever.invoke("What's a movie after 1990 but before 2005 that's all about dinosaurs, and preferably has a lot of action")

# 使用限制查询结果数量的功能
retriever = SelfQueryRetriever.from_llm(llm, vectorstore, document_content_description, metadata_field_info, verbose=True, enable_limit=True)
retriever.invoke("What are two movies about dinosaurs?")

应用场景分析

这种自查询检索技术适用于需要快速响应和高准确度的环境,比如电影推荐系统、知识库查询、客户支持自动化等。

实践建议

  1. 根据应用场景调整向量存储的维度和相似度度量方法(如使用余弦相似度)。
  2. 定义详细的元数据字段信息以支持高级查询。
  3. 定期更新嵌入模型和数据库数据以保持检索结果的准确性。

如果遇到问题欢迎在评论区交流。
—END—

### 如何使用 MongoDB Atlas 工具操作指南 #### 创建配置 MongoDB Atlas 集群 为了开始使用 MongoDB Atlas 的各种特性,包括向量搜索其他高级功能,首先需要创建一个集群。登录到 MongoDB Atlas 控制台之后,在项目概览页面点击“Build a Cluster”。选择合适的云提供商以及区域来部署新集群[^2]。 #### 启用网络访问 确保为新建的集群设置适当的 IP 白名单规则以便允许来自特定位置或范围内的连接请求。可以通过添加单个IP地址、整个CIDR块或是启用所有IP的方式来完成这一步骤。对于开发环境来说,可以暂时开放给所有的IP以方便测试;但在生产环境中应当严格控制访问权限。 #### 设置数据库用户认证 定义能够访问该实例的安全账户,并为其分配必要的角色权限。注意区分不同类型的用户需求——比如读写权限还是只读权限等——以此为基础授予最小化但足够的权利集。 #### 使用 MongoDB Compass 或命令行工具连接至集群 安装官方图形界面客户端MongoDB Compass或者依赖于mongo shell/mongosh这样的终端程序来进行交互式的数据管理活动。按照提示输入之前建立好的用户名密码组合以及其他必要参数(如主机名端口号SSL选项),成功建立会话后就可以浏览现有集合结构并对之实施CRUD操作了。 #### 利用 MongoDB Atlas Search Vector Search 功能 一旦基本准备工作就绪,则可以根据业务逻辑进一步探索由平台所提供的智能化检索解决方案。例如利用Atlas Search中的全文本索引来加速关键词匹配过程;或者是尝试最新的Vector Search技术实现基于相似度排序的结果返回机制。后者特别适用于处理多媒体文件分析场景下的特征提取任务,像图片识别视频分类等领域都有广泛的应用前景[^4]。 ```javascript // JavaScript (Node.js) example using official driver to perform KNN search with vectors stored in MongoDB collection. const { MongoClient } = require('mongodb'); async function run() { const uri = "<your connection string>"; const client = new MongoClient(uri); try { await client.connect(); const database = client.db('<database name>'); const collection = database.collection('<collection name>'); // Define the vector field and create an index on it for efficient querying. await collection.createIndex({ embedding: "vector-100" }); // Perform k-nearest neighbors query against embedded documents. const pipeline = [ { $search: { knnBeta: { path: "embedding", queryVector: [/* your input vector here */], k: 5, cache: {} } } }, { $limit: 5 } ]; let results = await collection.aggregate(pipeline).toArray(); console.log(results); } finally { await client.close(); } } run().catch(console.dir); ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值