了解更多Greenplum相关内容,欢迎访问Greenplum中文社区网站
本文转自掌数科技
一、与HADOOP HDFS的交互
01 PXF是什么
PXF是 Greenplum平台扩展框架(PXF),通过内置连接器提供对外部数据的访问。
PXF作为Greenplum与hadoop集群数据交互的并行通道框架,在标准功能外,还支持自定义开发与扩展,在Greenplum中通过PXF可以并行加载及并行卸载Hadoop平台数据。
如下图所示:
通过PXF,可以把Greenplum超强的结构化数据超强的存储和计算能力(一般不大于50PB的数据量)与Hadoop的海量半结构化、非结构化数据存储存储和分析能力结合起来,为企业数字化转型战略提供扎实的数据架构基础,其中Greenplum作为企业核心数据仓库(部分企业也通过Greenplum存储和处理半结构化及非结构化数据,如用户访问日志,文档等),Hadoop主要作为海量半结构化数据和非结构化数据的存储及处理平台,以及结构化历史流水数据的检索(Hbase)。
PXF可支持访问的外部数据源有HDFS,Hive和Hbase,我们接下来将分三篇文章描述PXF如何与这三种数据源进行交互。
下面我们将围绕Greenplum与Hadoop hdfs文件系统的数据交互进行,在Greenplum数据库中通过PXF协议读取hdfs中数据和向hdfs文件系统写入计算查询结果数据。
02 Greenplum PXF实战
1. Greenplum读取Hadoop hdfs文件
步骤1:编写文本文件,并增加数据
步骤2:查看数据
步骤3:在greenplum中创建外部表