pg_analytics：让PostgreSQL直接查询数据湖的高效工具

最新推荐文章于 2025-04-05 09:46:29 发布

魏献源Searcher

最新推荐文章于 2025-04-05 09:46:29 发布

阅读量267

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00294/article/details/146560738

版权

pg_analytics：让PostgreSQL直接查询数据湖的高效工具

pg_analytics DuckDB-powered data lake analytics from Postgres 项目地址: https://gitcode.com/gh_mirrors/pg/pg_analytics

在现代数据架构中，数据湖作为一种存储大量非结构化和半结构化数据的方法，越来越受到企业的青睐。然而，要从数据湖中提取数据进行分析，通常需要将其转移到数据仓库或使用专门的查询引擎，这不仅成本高昂，而且耗时。pg_analytics 的出现，改变了这一现状。

项目介绍

pg_analytics 是一个开源项目，旨在将 DuckDB 引擎集成到 PostgreSQL 中。通过安装 pg_analytics，用户可以直接从 PostgreSQL 查询存储在 AWS S3 和其他数据湖中的数据，支持多种表格式，如 Iceberg、Delta Lake 等。这种集成免除了数据迁移的繁琐和成本，同时也保持了数据的实时性。

项目技术分析

pg_analytics 使用了 PostgreSQL 的外部数据包装器（FDW）API 和执行器钩子 API。FDW API 允许 PostgreSQL 连接到外部数据源，而执行器钩子则用于将查询推送到 DuckDB 执行。DuckDB 是一个高性能的分析查询引擎，其速度快、效率高，特别适合处理大型数据集。

项目技术应用场景

pg_analytics 适用于多种场景，尤其是以下几种：

数据湖查询：直接在 PostgreSQL 中查询存储在 AWS S3、Google Cloud Storage、Azure Blob Storage 等数据湖中的数据。
多格式支持：支持 Parquet、CSV、JSON、Delta Lake、Apache Iceberg 等多种数据格式，使不同来源的数据都能被高效查询。
性能优化：通过将查询推送到 DuckDB，减少了数据传输和转换的开销，大大提升了查询效率。

项目特点

pg_analytics 的主要特点包括：

高度集成：无缝集成到 PostgreSQL，无需复杂的数据迁移和转换过程。
广泛的格式支持：支持多种数据存储和表格式，使得不同来源和格式的数据都能被查询。
高性能查询：利用 DuckDB 的高性能，提供快速的数据查询能力。
易于安装和使用：通过简单的命令即可完成安装，并通过熟悉的 SQL 接口进行数据查询。

安装与使用

pg_analytics 的安装非常简单，可以通过运行 ParadeDB 的 Docker 镜像快速部署，也可以在自托管 PostgreSQL 环境中编译安装。以下是一个使用 pg_analytics 查询 S3 存储的 Parquet 文件的示例：

CREATE EXTENSION pg_analytics;
CREATE FOREIGN DATA WRAPPER parquet_wrapper HANDLER parquet_fdw_handler VALIDATOR parquet_fdw_validator;

-- 提供S3凭证
CREATE SERVER parquet_server FOREIGN DATA WRAPPER parquet_wrapper;

-- 创建外部表并自动检测模式
CREATE FOREIGN TABLE trips ()
SERVER parquet_server
OPTIONS (files 's3://paradedb-benchmarks/yellow_tripdata_2024-01.parquet');

-- 成功！现在可以像查询普通PostgreSQL表一样查询远程Parquet文件
SELECT COUNT(*) FROM trips;

pg_analytics 的出现，为处理和分析大规模数据提供了一种新的高效方法，无需牺牲数据的实时性或性能。对于希望充分利用现有 PostgreSQL 投资并简化数据查询流程的企业来说，pg_analytics 是一个值得尝试的开源解决方案。

pg_analytics DuckDB-powered data lake analytics from Postgres 项目地址: https://gitcode.com/gh_mirrors/pg/pg_analytics