Spark之SQL高级知识分享(任务提交优化+SparkSQL执行计划解析+Spark版本对比)

最新推荐文章于 2024-08-02 13:40:49 发布

skwang_君永夜

最新推荐文章于 2024-08-02 13:40:49 发布

阅读量1.5k

点赞数

分类专栏： Spark 文章标签： Spark Spark任务提交耗时优化 JobServer Spark SQL执行计划解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32641659/article/details/90578883

版权

1.普通方式提交任务的缺点以及优化方法。

使用spark-shell/spark-submit脚本提交作业到yarn时：
2exector ：花了一分钟时间
200executor ：会花费更多更多的时间在向yarn申请资源

缺点一：耗费太多的时间用于申请资源上，尤其针对那些小任务（可能任务本身20秒完成）
缺点二：若因为数据倾斜导致部分task一值无法结束，那么即使那些完成任务的task的资源也不会释放
缺点三：默认的Sparl sql join以及aggregation的ShufflePatition数默认是200，若数据有时多有时少，那么定死的参数肯定不合适
缺点四：要处理的数据都有波峰波谷，如何保证波峰资源不吃紧波谷资源不浪费。

**思考：**我们是否将所有的作业共享Spark session以及SparkContext来解决上述的问题？
答案是可以的，社区提供了：JobServer（third-party package）、Livy（使用不是很理想）这两种服务，当然有技术积累的公司是通过自研方式解决共享Spark session的问题。

2.SparkSQL执行计划

官方对SparkSQl自身解析以及优化有详细的介绍，PDF文档链接：

链接：https

最低0.47元/天解锁文章

skwang_君永夜

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

skwang_君永夜 CSDN认证博客专家 CSDN认证企业博客

码龄9年

95: 原创

5万+: 周排名

64万+: 总排名

26万+: 访问

: 等级

3591: 积分

92: 粉丝

89: 获赞

42: 评论

510: 收藏

私信

关注

热门文章

分类专栏

ClickHouse 3篇
Linux 10篇
mysql 3篇
hadoop 28篇
HBase 2篇
Kafka
lucene 1篇
小工具 2篇
JVM 9篇
Spark 12篇
Hive 11篇
Oozie
Azkaban 1篇
架构及管理 3篇
Scala 1篇
大数据架构
Flume 3篇
Maxwell 2篇
CDH 2篇
Flink 8篇

最新评论

MaxWelll常用命令
烦恼么空: 我再maxwell文件夹下使用控制台输出报错，没有这个命令，这是为什么？
hive 之实战统计地区产品点击TOPN
& *: 访问次数表聚合了，那假如有一个product_id有两条记录，聚合成1条，记录click_count=2,然后在4.3里面进行join,但是product_info里面不是还是两条记录嘛，直接join按照笛卡尔积，生成的tmp_area_product_click_count_full_info，就是1x2,会有两条一模一样的记录，这不就出问题了嘛？所以我感觉很疑惑，你可以给我解答一下嘛？
Hadoop之使用MR编程实现join的两种方法
m0_67514328: 我在做mapreduce实验：join操作时输出结果为空，初学无从下手，希望您可以指点一下 Map-Reduce Framework Map input records=10 Map output records=0 Map output bytes=0 Map output materialized bytes=12 Input split bytes=198 Combine input records=0 Combine output records=0 Reduce input groups=0 Reduce shuffle bytes=12 Reduce input records=0 Reduce output records=0 Spilled Records=0 Shuffled Maps =2 Failed Shuffles=0 Merged Map outputs=2 GC time elapsed (ms)=170 CPU time spent (ms)=1070 Physical memory (bytes) snapshot=733970432 Virtual memory (bytes) snapshot=5903863808 Total committed heap usage (bytes)=508035072 Shuffle Errors BAD_ID=0 CONNECTION=0 IO_ERROR=0 WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Input Format Counters Bytes Read=139 File Output Format Counters Bytes Written=0
Maxwell之简介以及安装部署和使用
skwang_君永夜: 手动

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。