the way to jgs
文章平均质量分 88
学习之路,任重道远,一日不可断绝。
阳呀么阳阳阳
这个作者很懒,什么都没留下…
展开
-
Spark 的运行过程(本人的一些总结)
最近在复习Spark,有了一些自己的总结,在这里码上留作自己以后回忆所用。 (ps:本文不涉及基本概念的解答,只提供一个大致的思路) 代码的编写,缺少不了的就是main函数,而一个使用Spark的代码是怎么写的呢,首先是main函数,在main函数里会先创建一个Sparkcontext,数据的形式是RDD,内部函数是Spark中的transformation和actio...原创 2018-05-20 19:00:46 · 357 阅读 · 0 评论 -
Hive SQL调优总结
Hive SQL调优总结本文参考链接(总结的很棒很全面)这里只是总结了一下HQL上面的一些优化点,并不考虑Hadoop层面的参数、配置优化目录Hive SQL调优总结目录使用分区剪裁、列剪裁少用count(distinct)多对多的关联合理使用MapJoin合理使用Union ALL并行执行job使用本地MR合理使用动态分区避免数据倾斜控制Map数...转载 2018-06-03 15:52:23 · 9212 阅读 · 0 评论 -
Yarn on cluster 与 Yarn on client
Yarn-cluster 在Yarn-cluster模式下,driver运行在Appliaction Master上,Appliaction Master进程同时负责驱动Application和从Yarn中申请资源,该进程运行在Yarn container内,所以启动Application Master的client可以立即关闭而不必持续到Application的生命周期,下图是yarn...原创 2018-06-07 15:34:19 · 418 阅读 · 0 评论 -
Hbase调优
Ps:这里列举一些常见的Hbase调优,并不全面,如果想要全面的了解hbase调优,可以参考Hbase的官方文档,或者参考这篇总结自官方的博客。本文将从三个方面来对Hbase的调优进行总结:参数调优、表的设计、读取优化、写入优化。目录目录一、参数调优1.zk超期参数2.RegionServer的请求处理IO线程数3.ReigonServer上单个Reigon的最大存储空...原创 2018-06-07 22:19:11 · 274 阅读 · 0 评论 -
Spark Shuffle一览
目录目录Hash-based Shuffle 原始的Hash Shuffle机制优化后的 HashShuffle 机制-Consolidated HashShuffleSort-Based Shufflebypass运行机制Hash-based Shuffle 原始的Hash Shuffle机制Hash shuffle经历了两个阶段,第一个...原创 2018-06-08 15:15:27 · 310 阅读 · 0 评论 -
groupByKey与reduceByKey
看一下这两张图,就可以大致了解到两个分别是怎么样了: 提到一下combineByKey:原创 2018-06-08 15:50:04 · 346 阅读 · 0 评论