spark学习
qq_33179121
这个作者很懒,什么都没留下…
展开
-
spark数据倾斜和shuffle调优
文章目录Spark性能优化指南——高级篇前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+...转载 2019-01-03 19:28:45 · 120 阅读 · 0 评论 -
Spark SQL学习
Spark SQL学习1.SparkSQL概述SparkSQL是能够操作结构化数据的spark中的module模块。1.1.特点1.1.1.Integrated(可集成的)SparkSQL可以和Spark的程序混合在一起使用。1.1.2.Uniform Data Access(统一的数据访问方式)Connect to any data source the same way.D...原创 2019-01-03 19:53:07 · 536 阅读 · 0 评论