大数据企业级开发
文章平均质量分 82
数据开发、数仓、实时计算、机器学习、组件源码剖析等企业级开发硬核文章系列
大数据兵工厂
大数据领域资深老兵,华为云享专家,任职于互联网大厂,专攻实时计算、数仓、机器学习领域
展开
-
万字解决Flink|Spark|Hive 数据倾斜
不管再出现分布式计算框架出现数据倾斜问题解决思路如下:很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理,异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。关注这几个方面:数据预处理。解决热点数据:分而治之(第一次打散计算,第二次再最终聚合计算)。业务逻辑方面程序代码层面导致最终只有一个Reduce任务的,需要想到用替代的关键字或者算子去提升Reduce任务数。调参。原创 2023-12-17 12:44:41 · 1062 阅读 · 0 评论 -
职场人关于跳槽与工作的建议
大家好,我是老兵。最近在不同信息渠道获悉到很多关于跳槽的动态,有一些想法想和大家聊聊,以下内容仅作个人感想,无关建议。原创 2023-05-18 21:11:01 · 369 阅读 · 0 评论 -
阿里大数据学习之路数仓篇精读
本期是一期读书笔记分享,我选择的经典书籍是,主要精读其中的数据模型篇。这本书的经典之处我不再赘述。我主要对篇章中的核心知识脉络进行整理,并结合数仓面试考点,希望帮大家在阅读本书时提供重难点梳理和学习思路。原创 2023-05-18 21:03:43 · 347 阅读 · 0 评论 -
Flink源码精讲系列开篇—源码编译
大家好,我是老兵。五月将开启一个新系列—Flink源码精读。讲解内容以一个运行程序为切入点,剖析Flink任务提交->task任务执行本期为Flink源码精读系列第一期—Flink源码编译,内容包含Flink源码下载、编译,作为精讲系列的开篇。话不多说,我们开始。原创 2023-05-18 20:58:11 · 134 阅读 · 0 评论
分享