关于并行数据加载
本主题简要介绍了Greenplum数据库的数据加载功能。
在大型的、数TB的数据仓库中,必须在一个相对较小的维护窗口内加载大量数据。Greenplum的外部表功能,支持快速、并行地数据加载。管理员还可以用单行错误隔离模式加载外部表,将有问题的行过滤到单独的错误日志中,同时继续加载格式正确的行。管理员可以为加载操作指定一个错误阈值,来控制有多少格式不正确的行,会导致Greenplum中止加载操作。
通过将外部表与Greenplum数据库的并行文件服务器(gpfdist)结合使用,管理员可以从Greenplum数据库系统中获得最大的并行度和装载带宽。
图1.使用Greenplum并行文件服务器的外部表(gpfdist)
![](https://i-blog.csdnimg.cn/blog_migrate/4ab7c45aa806d10907df9487d86aeae5.png)
另一个Greenplum工具 gpload,能运行您在YAML格式的控制文件中指定的加载任务。控制文件描述了源数据的位置、格式,所需的转换、参与的主机、数据库目标以及其他详细信息,gpload据此执行加载。这使您可以描述一个复杂的任务,并以一种可控的、可重复的方式执行它。
父主题: Greenplum数据库概念