网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
问题背景
通过数据平台上的DataX把Hive表数据同步至Greenplum(因为DataX原生不支持Greenplum Writer,只能采用PostgreSQL驱动的方式),但是同步速度太慢了,<100Kb/s(DataX服务器和Greenplum服务器都在内网,实测服务器间传输文件速率可以达到170Mb/s+),根本没法用。
解决方式
查看Greenplum官网,给出了以下几种将外部数据写入Greenplum方式:
- JDBC:JDBC方式,写大数据量会很慢。
- gpload:适合写大数据量数据,能并行写入。但其缺点是需要安装客户端,包括gpfdist等依赖,安装起来很麻烦。需要了解可以参考gpload。
- Greenplum-Spark Connector:基于Spark并行处理,并行写入Greenplum,并提供了并行读取的接口。
而我们之前采用的PostgreSQL驱动的方式就是因为使用了JDBC,导致写入速度非常慢。综合官网提供的这3中方式,我们最终选择了Greenplum-Spark Connector这种方式,但是只提供了Spark2.3版本支持,其他版本未验证过。
Greenplum-Spark Connector具体的读写架构和流程,请参考Greenplum官网文档:https://cn.greenplum.org/greenplum-spark-connector/。
代码实现
Greenplum-Spark Connector需要引入两个依赖包:
greenplum-spark_2.11-2.3.0.jar无法通过Maven自动下载,需要到上面网址手动下载,且要先注册网址账号才允许下载。
Spark写Greenplum
代码实现:
package com.demo
import org.apache.spark.sql.{SaveMode, SparkSession}
import java.time.LocalDateTime
import java.time.format.DateTimeFormatter
object SparkWriteGreenplum {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.appName("Spark to Greenplum")
.enableHiveSupport()
.getOrCreate()
spark.sparkContext.setLogLevel("INFO")
// main函数传参数获取表名
val tableName = args(0)
val days = args(1).toLong
/\*\* spark写greenplum \*/
//Greenplum配置信息
val gscWriteOptionMap = Map(
"url" -> "jdbc:postgresql://host:5432/db",
"user" -> "u",
"password" -> "p",
"dbschema" -> "schema",
"dbtable" -> "table"
)
// Hiv表分区
val ds = LocalDateTime.now().minusDays(days).format(DateTimeFormatter.ofPattern("yyyyMMdd"))
// 读取Hive表
val df = spark.sql("select \* from db." + tableName + " where ds = " + ds)
![img](https://img-blog.csdnimg.cn/img_convert/90c4c4bf74aa480b90f5cfae5b102547.png)
![img](https://img-blog.csdnimg.cn/img_convert/7e6b3cfc577db564e231ee746490b90d.png)
![img](https://img-blog.csdnimg.cn/img_convert/d3afe4fb812e5308bfc598ba9ca98c55.png)
**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**
**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**
、讲解视频,并且后续会持续更新**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**