调优
aaaaajiboke
你可以称呼我大佬
展开
-
HIVE如何处理大量小文件
小文件是如何产生的:动态分区插入数据的时候,会产生大量的小文件,从而导致map数量的暴增数据源本身就包含有大量的小文件reduce个数越多,生成的小文件也越多小文件的危害:从HIVE角度来看的话呢,小文件越多,map的个数也会越多,每一个map都会开启一个JVM虚拟机,每个虚拟机都要创建任务,执行任务,这些流程都会造成大量的资源浪费,严重影响性能在HDFS中,每个小文件约占150...转载 2019-01-25 15:16:44 · 8833 阅读 · 1 评论 -
Spark性能优化指南——高级篇
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如...转载 2019-01-16 11:49:49 · 152 阅读 · 0 评论