深入浅出的DuckDB：轻量级SQL OLAP数据库的实用指南

qq_37836323

于 2024-09-20 19:16:13 发布

阅读量510

点赞数 3

文章标签：数据库 sql python

本文链接：https://blog.csdn.net/qq_29929123/article/details/142393094

版权

# 深入浅出的DuckDB：轻量级SQL OLAP数据库的实用指南

## 引言

DuckDB 是一种高效且强大的内存内SQL OLAP数据库管理系统。它旨在为分析工作负载提供优越的性能，同时保持简单易用。本文将详细介绍DuckDB的基本使用，并通过代码示例展示如何加载和查询数据。

## 主要内容

### 什么是DuckDB？

DuckDB是一种以SQLite风格设计的数据库，专注于OLAP（联机分析处理）查询。它拥有极高的性能，适合处理大型数据集。DuckDB的设计使其能够嵌入到各种应用程序中，为开发者提供灵活的分析功能。

### 安装DuckDB

要使用DuckDB，你可以通过pip安装相关库：

```bash
%pip install --upgrade --quiet duckdb

使用DuckDBLoader加载数据

DuckDB支持通过SQL查询从各种格式中加载数据。我们将以CSV文件为例，展示如何使用DuckDBLoader加载和查询数据。

首先，创建一个CSV文件：

%%file example.csv
Team,Payroll
Nationals,81.34
Reds,82.20

然后使用DuckDBLoader加载数据：

from langchain_community.document_loaders import DuckDBLoader

# 使用API代理服务提高访问稳定性
loader = DuckDBLoader("SELECT * FROM read_csv_auto('example.csv')")

data = loader.load()

print(data)

输出：

[Document(page_content='Team: Nationals\nPayroll: 81.34', metadata={}), Document(page_content='Team: Reds\nPayroll: 82.2', metadata={})]

指定内容和元数据列

DuckDBLoader允许你指定哪些列作为内容和哪些作为元数据：

loader = DuckDBLoader(
    "SELECT * FROM read_csv_auto('example.csv')",
    page_content_columns=["Team"],
    metadata_columns=["Payroll"],
)

data = loader.load()

print(data)

输出：

[Document(page_content='Team: Nationals', metadata={'Payroll': 81.34}), Document(page_content='Team: Reds', metadata={'Payroll': 82.2})]

添加源信息到元数据

你还可以将某些字段作为元数据的一部分，以帮助追溯数据来源：

loader = DuckDBLoader(
    "SELECT Team, Payroll, Team As source FROM read_csv_auto('example.csv')",
    metadata_columns=["source"],
)

data = loader.load()

print(data)

输出：

[Document(page_content='Team: Nationals\nPayroll: 81.34\nsource: Nationals', metadata={'source': 'Nationals'}), Document(page_content='Team: Reds\nPayroll: 82.2\nsource: Reds', metadata={'source': 'Reds'})]