一.背景
pxf适用于联邦数据的查询,支持多种数据源,如Hadoop、hive、关系数据库。支持多个异构数据源,并只查询数据源中少量数据集,而避免对数据集执行ETL操作。
二.PXF架构
1.pxf server 部署在segment host主机上。
2.segment通过rest接口和pxf server进行交互。
3.pxf server和外部数据通过特定connector进行交互。
三.编译
1.源码(这里采用5.14版本)
开源协议:Apache-2.0 License
https://github.com/greenplum-db/pxf/archive/release-5.13.0.zip
2.物理结构说明
1)cli
pxf的命令行工具,go语言开发主要基于github.com/spf13/cobra。
2)server
pxf的服务,Java语言开发,gradle编译打包成war,运行于tomcat中。
3. 基于容器编译
1)容器启动
#docker run -td -v ~/workspace/gpdb:/home/gpadmin/gpdb_src --privileged --security-opt seccomp:unconfined -i pivotaldata/gpdb6-centos7-build:latest /usr/sbin/init
2)依赖包安装
#yum install -y openssl openssh-server
#yum install openssh*
#yum install python-devel
#yum instal