![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 88
砥砺前行的疯子
这个作者很懒,什么都没留下…
展开
-
spark数据倾斜,spark sql 优化方案
1、SQL 代码层面优化Step1、阻塞调度的长耗时 SQL 提取Step2、划分长耗时 SQLStep3、对长耗时 SQL 逐个分析1.1、数据倾斜优化1.1.1、sqoop 导入数据时的倾斜:经过分析发现,数据倾斜是因为sqoop 同步数据时,采用的是sys_time字段进行数据进行split的,客户可能在某一时间对业务数据库进行过导入,从而导致很多数据的sys_time 在同一时间。所以sqoop 导入的数据,即存在了数据倾斜解决办法:将sqoop split_by 的..原创 2022-05-26 12:44:23 · 2843 阅读 · 0 评论 -
Spark集群搭建,任务提交
搭建spark2.3.1基于HDFS_onyarn搭建sparkHA必须基于JDK1.8下面是每台节点上配置的角色node01 node02 node03 node04 node05master(active) worker worker 客户端 master(standby)1、解压 2、到/software/spark-2.3.1/...原创 2019-05-28 23:03:13 · 2043 阅读 · 0 评论 -
Spark----RDD,DF,DS效率比较
今天听一个计数大牛说DS>RDD>DF 特写了代码测试下三个运行的速度,代码如下,运行结果在代码后面package com.huawei.spark.areaRoadFlowimport java.util.UUIDimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SparkSessi...原创 2019-06-12 20:26:31 · 2610 阅读 · 1 评论 -
Spark之Shuffle机制和原理+源码解析
一、什么是spark shufflea). 我们举个例子reduceByKey会产生shuffle对吧,此算子会把上一个RDD每一个相同key的value聚合在一起形成一个新的value,生成一个新的RDD,类型还是<key,value>形式,这样每一个key对应的就是一个聚合起来的value。b). 每一个key对应的value不一定在同一个partition上,也不可能在同一个...原创 2019-06-22 22:18:44 · 2156 阅读 · 0 评论