- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 万字解决Flink|Spark|Hive 数据倾斜
不管再出现分布式计算框架出现数据倾斜问题解决思路如下:很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理,异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。关注这几个方面:数据预处理。解决热点数据:分而治之(第一次打散计算,第二次再最终聚合计算)。业务逻辑方面程序代码层面导致最终只有一个Reduce任务的,需要想到用替代的关键字或者算子去提升Reduce任务数。调参。
2023-12-17 12:44:41 1009
原创 面试必看!Flink VS Spark 之内存管理机制详解
动态内存占比,提升内存的合理利用率统一管理Storage和Execution内存,便于调优和维护由于Execution占用Storage内存可不规划,存在Storage内存不够频繁GC的情况。
2023-08-15 19:12:13 327
原创 职场人关于跳槽与工作的建议
大家好,我是老兵。最近在不同信息渠道获悉到很多关于跳槽的动态,有一些想法想和大家聊聊,以下内容仅作个人感想,无关建议。
2023-05-18 21:11:01 300
原创 阿里大数据学习之路数仓篇精读
本期是一期读书笔记分享,我选择的经典书籍是,主要精读其中的数据模型篇。这本书的经典之处我不再赘述。我主要对篇章中的核心知识脉络进行整理,并结合数仓面试考点,希望帮大家在阅读本书时提供重难点梳理和学习思路。
2023-05-18 21:03:43 305
原创 Flink源码精讲系列开篇—源码编译
大家好,我是老兵。五月将开启一个新系列—Flink源码精读。讲解内容以一个运行程序为切入点,剖析Flink任务提交->task任务执行本期为Flink源码精读系列第一期—Flink源码编译,内容包含Flink源码下载、编译,作为精讲系列的开篇。话不多说,我们开始。
2023-05-18 20:58:11 120
原创 2022一条龙Spark保姆级面试
本文是历时一周整理的Spark保姆级教程。基于面试角度出发,涉及内容有Spark的相关概念、架构原理、部署、调优及实战问题。文中干货较多,希望大家耐心看完。
2022-01-29 14:18:26 2440
原创 万字最全Spark内存管理详解
与数据频繁落盘的`Mapreduce`引擎不同,Spark是基于`内存`的分布式计算引擎,其内置强大的内存管理机制,保证数据`优先内存`处理,并支持数据磁盘存储。
2022-01-29 12:30:11 4849
原创 Flink VS Spark 实时计算Exactly-once一致性
海量数据实时计算:Spark和Flink引擎是如何保证Exactly-Once一致性?
2022-01-29 12:17:15 1255
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人