Ploomber项目文件客户端使用指南

喻建涛

于 2025-06-11 09:03:13 发布

阅读量273

点赞数 3

本文链接：https://blog.csdn.net/gitblog_01095/article/details/148575547

版权

Ploomber项目文件客户端使用指南

ploomber The fastest ⚡️ way to build data pipelines. Develop iteratively, deploy anywhere. ☁️ 项目地址: https://gitcode.com/gh_mirrors/pl/ploomber

文件客户端概述

在Ploomber项目中，文件客户端(File Clients)是一个关键组件，用于将项目生成的文件产品上传到云存储服务。目前，Ploomber支持两种主流云存储服务：Amazon S3和Google Cloud Storage。

文件客户端的主要功能是将本地文件路径转换为云存储路径。例如，本地路径/path/to/project/out/data.csv会被转换为云存储路径path/to/parent/out/data.csv，其中parent是您在云存储桶中指定的父文件夹。

准备工作

在使用文件客户端之前，您需要完成以下准备工作：

云存储配置：
- 在目标云平台(AWS或Google Cloud)上创建一个存储桶
- 或者使用现有的存储桶
认证配置：
- 配置环境变量存储认证凭据
- 或者创建一个credentials.json文件存储认证信息

创建客户端配置文件

Amazon S3客户端配置

要配置Amazon S3客户端，您需要创建一个clients.py文件，并添加以下内容：

from ploomber.clients import S3Client

def get_s3():
    return S3Client(bucket_name='您的存储桶名称',
                    parent='父文件夹名称',
                    # 如果环境变量未配置认证信息，请提供凭据文件路径
                    json_credentials_path='credentials.json')

Google Cloud Storage客户端配置

对于Google Cloud Storage，配置类似：

from ploomber.clients import GCloudStorageClient

def get_gcloud():
    return GCloudStorageClient(bucket_name='您的存储桶名称',
                               parent='父文件夹名称',
                               # 如果环境变量未配置认证信息，请提供凭据文件路径
                               json_credentials_path='credentials.json')

配置管道文件

配置好客户端后，您需要在pipeline.yaml文件中添加clients配置项，指定要使用的客户端函数：

# 其他配置内容...

clients:
  File: 项目名称.clients.get_client  # 替换为您的实际客户端函数路径

# 其他配置内容...

处理外部数据集

需要注意的是，文件客户端仅用于上传管道生成的产品文件。如果您需要使用外部数据集，应该在管道任务中实现该数据集的下载逻辑。例如：

在任务脚本中添加下载外部数据集的代码
将下载的数据集作为任务的输入

高级使用技巧

本地与云端同步：
- 文件客户端不仅可用于云端部署，也可用于本地开发环境
- 使用ploomber build命令时，会自动下载之前运行生成的云存储文件
本地存储客户端：
- Ploomber还提供了LocalStorageClient，主要用于内部测试
- 也可用于本地备份产品文件
多环境支持：
- 您可以配置多个客户端函数，根据环境选择不同的客户端
- 例如，开发环境使用本地存储，生产环境使用云存储