使用DuckDB处理CSV文件并加载为文档

最新推荐文章于 2025-03-08 11:14:51 发布

shuoac

最新推荐文章于 2025-03-08 11:14:51 发布

阅读量323

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/shuoac/article/details/145743411

版权

DuckDB是一款轻量级的嵌入式SQL OLAP数据库管理系统，适合在内存中进行快速查询和分析数据。在这篇文章中，我们将介绍如何使用DuckDB从CSV文件中加载数据，并将每一行数据转换为文档对象进行操作。

技术背景介绍

DuckDB数据库以其易于嵌入和高性能查询能力而著称，适用于嵌入式分析应用场景。通过简单的SQL查询，可以快速读取和处理各种格式的数据，比如CSV文件。

核心原理解析

DuckDB使用标准SQL语法，可以直接在内存中执行数据查询操作。通过使用DuckDB的SQL引擎，我们可以从CSV文件读取数据，并将数据转化为自定义的Python对象以供进一步处理。

代码实现演示

安装DuckDB库

首先，我们需要安装DuckDB库和相关的文档加载器库。可以使用以下命令进行安装：

%pip install --upgrade --quiet duckdb langchain_community

准备CSV数据文件

创建一个简单的CSV文件作为示例数据：

%%file example.csv
Team,Payroll
Nationals,81.34
Reds,82.20

使用DuckDBLoader加载CSV数据

DuckDBLoader是一个方便的工具，可以通过SQL查询从CSV文件中加载数据。下面是一段完整的示例代码，展示如何使用DuckDBLoader加载数据并将其转化为文档对象：

from langchain_community.document_loaders import DuckDBLoader

# 定义SQL查询语句以读取CSV文件
loader = DuckDBLoader("SELECT * FROM read_csv_auto('example.csv')")

# 加载数据
data = loader.load()

# 打印输出的文档对象列表
print(data)

运行上述代码将输出以下内容：

[Document(page_content='Team: Nationals\nPayroll: 81.34', metadata={}), Document(page_content='Team: Reds\nPayroll: 82.2', metadata={})]

指定内容和元数据列

有时，我们希望对文档对象中的内容和元数据进行更多控制。可以通过指定page_content_columns和metadata_columns参数来实现：

loader = DuckDBLoader(
    "SELECT * FROM read_csv_auto('example.csv')",
    page_content_columns=["Team"],
    metadata_columns=["Payroll"],
)

data = loader.load()

print(data)

此时输出的内容为：

[Document(page_content='Team: Nationals', metadata={'Payroll': 81.34}), Document(page_content='Team: Reds', metadata={'Payroll': 82.2})]

添加来源信息到元数据

如果我们希望将某些字段作为元数据的一部分，可以通过SQL查询添加相应的字段：

loader = DuckDBLoader(
    "SELECT Team, Payroll, Team As source FROM read_csv_auto('example.csv')",
    metadata_columns=["source"],
)

data = loader.load()

print(data)

输出结果为：

[Document(page_content='Team: Nationals\nPayroll: 81.34\nsource: Nationals', metadata={'source': 'Nationals'}), Document(page_content='Team: Reds\nPayroll: 82.2\nsource: Reds', metadata={'source': 'Reds'})]