5 并行数据加载

5 并行数据加载

本章简述Greenplum的数据加载特性。

         在一个大规模的,TB级的数据仓库上,大量的数据必须在一个较短的维护窗口中加载。Greenplum支持快速的、并行数据加载和外部表功能。管理员可以选择单行错误隔离模式的外部表以便将错误的数据过滤到一个单独的表中,同时继续加载正确的格式化的数据行。管理员也可以通过设定加载选项的阈值,以便控制不正确格式化行数导致的Greenplum数据库引擎中止加载操作。

 

通过与Greenplum数据引擎的并行文件服务器(gpfdist)结合使用外部表,管理员可以实现从Greenplum数据系统最大并行度和负载带宽。



Figure 2: External Tables Using Greenplum ParallelFile Server (gpfdist)

Greenplum的另外一个功能是gpload,运行您在YAML格式的控制文件指定装载任务。你描述在控制文件中的源数据位置,格式,需要转换,参与的主机,数据库的目的地,以及其他细节和gpload执行的负荷。这使您可以描述一个复杂的任务,并在可控,可重复的方式执行。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值