Spark——Spark读写Greenplum Greenplum-Spark Connector高速写Greenplum_spark 写入greenplum(2)

问题背景

通过数据平台上的DataX把Hive表数据同步至Greenplum(因为DataX原生不支持Greenplum Writer,只能采用PostgreSQL驱动的方式),但是同步速度太慢了,<100Kb/s(DataX服务器和Greenplum服务器都在内网,实测服务器间传输文件速率可以达到170Mb/s+),根本没法用。

解决方式

查看Greenplum官网,给出了以下几种将外部数据写入Greenplum方式:

  • JDBC:JDBC方式,写大数据量会很慢。
  • gpload:适合写大数据量数据,能并行写入。但其缺点是需要安装客户端,包括gpfdist等依赖,安装起来很麻烦。需要了解可以参考gpload。
  • Greenplum-Spark Connector:基于Spark并行处理,并行写入Greenplum,并提供了并行读取的接口。

而我们之前采用的PostgreSQL驱动的方式就是因为使用了JDBC,导致写入速度非常慢。综合官网提供的这3中方式,我们最终选择了Greenplum-Spark Connector这种方式,但是只提供了Spark2.3版本支持,其他版本未验证过。

Greenplum-Spark Connector具体的读写架构和流程,请参考Greenplum官网文档:https://cn.greenplum.org/greenplum-spark-connector/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值