Pivotal Greenplum® 6.9-管理员指南-Greenplum数据库概念-关于并行数据加载

关于并行数据加载

本主题简要介绍了Greenplum数据库的数据加载功能。

在大型的、数TB的数据仓库中,必须在一个相对较小的维护窗口内加载大量数据。Greenplum的外部表功能,支持快速、并行地数据加载。管理员还可以用单行错误隔离模式加载外部表,将有问题的行过滤到单独的错误日志中,同时继续加载格式正确的行。管理员可以为加载操作指定一个错误阈值,来控制有多少格式不正确的行,会导致Greenplum中止加载操作。

通过将外部表与Greenplum数据库的并行文件服务器(gpfdist)结合使用,管理员可以从Greenplum数据库系统中获得最大的并行度和装载带宽。

图1.使用Greenplum并行文件服务器的外部表(gpfdist) 

另一个Greenplum工具 gpload,能运行您在YAML格式的控制文件中指定的加载任务。控制文件描述了源数据的位置、格式,所需的转换、参与的主机、数据库目标以及其他详细信息,gpload据此执行加载。这使您可以描述一个复杂的任务,并以一种可控的、可重复的方式执行它。

父主题: Greenplum数据库概念
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值