使用PXF的前提:
已经编译并安装了GP6.0 ,并且pxf也编译包括在安装包中,且pxf/bin目录下pxf和pxf-cli齐全。
PXF使用步骤如下,
1.在gpadmin用户下配置PXF_CONF/HADOOP_HOME/JAVA_HOME 等环境变量,从Hadoop集群拷贝/usr/hdp相关文件,并配置pxf-env.sh
pxf-env.sh主要是需要修改LD_LIBRARY_PATH为Hadoop的hadoop/lib/native实际路径。
2.初始化pxf、启动pxf服务
pxf cluster init
pxf cluster start
psql创建扩展
create extension pxf;
3.拷贝Hadoop相关core-site.xml、hdfs-site.xml、yarn-site.xml等到GP的msater节点的$PXF_CONF/servers/default/目录,并修改core-site.xml的fs.defaultFS
配置为active namenode所在节点ip。
修改后通过命令pxf cluster sync
来同步pxf配置。
4.在Hadoop集群中加入gpadmin用户访问权限,以解决impersonate问题
主要是加入hadoop.proxyuser.gpadmin.groups/host