- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Spark性能优化:基于分区进行操作
我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/前言(摘自Spark快速大数据分析)基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作。Spark 提供基于分区的map 和foreach,让你的部分代码只对RDD...
2018-09-07 15:09:28 2330
原创 利用Spark实现Oracle到Hive的历史数据同步
我的原创地址:https://dongkelun.com/2018/08/27/sparkOracle2Hive/1、需求背景和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲的只是同步历史数据,不包括同步增量数据。2、Oracle和Hive的字段类型对应利用Spark...
2018-09-03 13:43:46 3139
原创 Spark通过修改DataFrame的schema给表字段添加注释
我的原创地址:https://dongkelun.com/2018/08/20/sparkDfAddComments/1、需求背景通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: * 用Spark Sql,在程序里组建表语句,然后用Spark.sql(“建表语句”)建表,这种方法麻烦的地方......
2018-09-03 13:41:58 7946
hudi-spark3.2-bundle-2.12-0.13.0.jar hudi sql 保存 extraMetadata
2024-06-13
QQ截图工具独立版-不需要安装QQ
2024-02-18
flink-sql-connector-hbase-2.2-1.15.4.jar
2023-12-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人