深入MongoDB：使用Langchain加载并处理文档的实用指南

mmlihaio

于 2024-10-07 10:35:06 发布

阅读量261

点赞数 3

文章标签： mongodb langchain 数据库 python

本文链接：https://blog.csdn.net/mmlihaio/article/details/142736686

版权

# 深入MongoDB：使用Langchain加载并处理文档的实用指南

## 引言

MongoDB是一种NoSQL，面向文档的数据库，支持具有动态模式的类似JSON的文档。本文旨在介绍如何使用Langchain的MongoDB文档加载器从MongoDB数据库中提取数据，并以Langchain文档的形式输出。

## 主要内容

### MongoDB简介

MongoDB是一种流行的NoSQL数据库，因其灵活的数据模型和高性能而广受欢迎。其文档格式为BSON（类似JSON），支持嵌套对象和数组，非常适合处理复杂的数据结构。

### Langchain的MongoDB文档加载器

Langchain提供了一种方便的方式来加载MongoDB文档，即`MongodbLoader`。它需要指定以下参数：

- **MongoDB连接字符串**：用于连接MongoDB服务器。
- **数据库名称**：要访问的MongoDB数据库。
- **集合名称**：要访问的数据库集合。
- **内容过滤器（可选）**：用于筛选特定文档的字典。
- **字段名称列表（可选）**：输出中包含的字段名称。

### 使用文档加载器的步骤

1. **安装依赖**：确保已安装所需的Python模块：
   ```bash
   pip install langchain-community

设定连接：创建MongodbLoader实例并配置连接信息。
加载文档：调用load()方法获取文档列表。

代码示例

以下是一个完整的代码示例，展示如何使用MongodbLoader从MongoDB中获取数据：

# 在Jupyter Notebook中运行时需要
import nest_asyncio
nest_asyncio.apply()

from langchain_community.document_loaders.mongodb import MongodbLoader

# 使用API代理服务提高访问稳定性
loader = MongodbLoader(
    connection_string="mongodb://localhost:27017/",
    db_name="sample_restaurants",
    collection_name="restaurants",
    filter_criteria={"borough": "Bronx", "cuisine": "Bakery"},
    field_names=["name", "address"],
)

docs = loader.load()

print(f"Loaded {len(docs)} documents.")
print(docs[0])

输出示例：

Loaded 71 documents.
Document(page_content="Morris Park Bake Shop {'building': '1007', 'coord': [-73.856077, 40.848447], 'street': 'Morris Park Ave', 'zipcode': '10462'}", metadata={'database': 'sample_restaurants', 'collection': 'restaurants'})