大数据-计算引擎-SPARK
文章平均质量分 50
spark使用上的一些总结
csdn_wr
这个作者很懒,什么都没留下…
展开
-
[bug]spark overwrite oracle truncate修改了表结构
我正在使用spark df write写入oracle表-写入数据时,底层的oracle表结构将通过spark进行更改df.write.mode(SaveMode.Overwrite).jdbc(targetJdbcUrl, targetTable, targetProps)source_desc varchar(200)会变成 source_desc varchar(255)改为mode(SaveMode.Append)就能解决了,truncate通过自己jdbc去前置把。...转载 2021-06-17 14:09:46 · 473 阅读 · 1 评论 -
spark开发教程
spark开发教程目录spark开发教程前言一、初始化spark二、获取数据源创建数据结构连接外部数据textfile2.读入数据总结前言spark开发主要的基于RDD、Datasets、DataFrame、sql 。其中rdd是最核心的底层,Datasets、DataFrame、sql都是基于rdd封装的高级api,dataframe是datasets的一种(类型为row)。一、初始化spark一个spark脚本的提交,会产生一个driver,如何通过把driver的运行逻辑传递给各个exe原创 2021-05-18 15:32:33 · 2270 阅读 · 0 评论 -
数仓之spark数据采集
概要由于spark可以接入非常多的数据源,且能够完美连接hive库,那么离线数仓以spark作为数据采集工具,将是一个方便可行的方案。配置文件json参考alibaba开发的datax数据同步工具,及目前的flinkx数据同步工具,以json文件作为配置文件,主要分为reader模块,writer模块。这里列出hive->mysql的json demo{ "cluster":"10.40.3.26", "reader":{ "name":"hivereader", "s原创 2021-04-27 17:27:15 · 1625 阅读 · 0 评论