spark
文章平均质量分 70
王糍粑的小夕
这个作者很懒,什么都没留下…
展开
-
使用java远程提交spark任务到yarn集群
公司需求中,需要用到java远程提交spark任务,方式还是用yarn提供的方法提交任务。如果你也想远程提交flink任务,请看这篇文章。原创 2024-05-17 17:27:38 · 441 阅读 · 0 评论 -
记一次spark-sql数据倾斜解决方案
今天在做一张埋点事实表,需要关联几张维表,补充一些维度属性。经过两三个小时,终于把sql写出来,提交到spark集群,跑的时候发现跑了二十多分钟没跑完,心想肯定是倾斜,因为并没有做什么复杂的处理,仅仅是解析一下字段,补充点维度信息。原创 2024-01-09 17:27:49 · 730 阅读 · 0 评论 -
spark-sql字段血缘实现
字段血缘原创 2024-01-08 17:26:44 · 3155 阅读 · 1 评论 -
SparkSql开发脚手架:大数据工程师的必备利器
f <sql-filepath> 说明:支持oss、hdfs、本地路径-q <sql script> 说明:sql脚本,多个sql用分号隔开。目前仅支持insert、create、set、drop语句。-l 说明:获取血缘关系,写入图数据库。-c <int> 说明:写入hive时配置,用于合并小文件-p <json> 说明:并发读取mysql数据配置参数。使用方式示例如下:或-f 和 -q只能同时存在一个-p只有在读取mysql的时候才会起作用。原创 2023-12-10 12:49:33 · 476 阅读 · 0 评论