使用 AirbyteLoader 将数据源加载到 LangChain 文档中

最新推荐文章于 2025-10-13 21:04:50 发布

eahba

最新推荐文章于 2025-10-13 21:04:50 发布

阅读量377

点赞数 4

CC 4.0 BY-SA版权

文章标签： langchain python

本文链接：https://blog.csdn.net/eahba/article/details/146450528

技术背景介绍

Airbyte 是一个功能强大的数据集成平台，专注于从 API、数据库和文件中构建数据仓库与数据湖的 ELT（Extract, Load, Transform）管道。它以最大的 ELT 连接器目录而闻名，可以支持各种数据仓库和数据库。在本文中，我们将探索如何使用 AirbyteLoader 将任意数据源从 Airbyte 加载到 LangChain 文档中。

核心原理解析

AirbyteLoader 是 langchain-airbyte 集成包的一部分，旨在轻松加载和转换数据流。它支持从 Airbyte 的各个数据源和流中获取结构化数据，并以 YAML 格式输出文档。同时，它支持自定义的提示模板，帮助你将数据格式化成你需要的样式。

代码实现演示

安装

首先，确保安装 langchain-airbyte 集成包：

% pip install -qU langchain-airbyte

请注意，目前 Airbyte 库不支持 Pydantic v2，因此需要使用 v1，且它需要 Python 3.10+。

加载文档

默认情况下，AirbyteLoader 会加载任何数据流中的结构化数据，并输出为 YAML 格式的文档：

from langchain_airbyte import AirbyteLoader

loader = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 10},
)
docs = loader.load()
print(docs[0].page_content[:500])

输出的文档会包含详细的用户信息，如学位、地址、年龄等。

使用自定义提示模板

你可以使用自定义的提示模板来格式化文档：

from langchain_core.prompts import PromptTemplate

loader_templated = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 10},
    template=PromptTemplate.from_template(
        "My name is {name} and I am {height} meters tall."
    ),
)
docs_templated = loader_templated.load()
print(docs_templated[0].page_content)

懒加载文档

AirbyteLoader 提供了懒加载功能，适合处理大型文档的数据集：

import time

loader = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 3},
    template=PromptTemplate.from_template(
        "My name is {name} and I am {height} meters tall."
    ),
)

start_time = time.time()
my_iterator = loader.lazy_load()
print(
    f"Just calling lazy load is quick! This took {time.time() - start_time:.4f} seconds"
)

for doc in my_iterator:
    print(doc.page_content)

支持异步懒加载：

loader = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 3},
    template=PromptTemplate.from_template(
        "My name is {name} and I am {height} meters tall."
    ),
)

my_async_iterator = loader.alazy_load()

async for doc in my_async_iterator:
    print(doc.page_content)