数据开发
文章平均质量分 96
Mr.Stubborn�
这个作者很懒,什么都没留下…
展开
-
分布式系统MaxCompute/Hadoop日志分析与优化流程
很久没有认真复盘一下,接着两年前的文章Hadoop性能优化概述-数据膨胀&数据倾斜系统性总结一下优化方案和如何从日志中分析性能卡点,同时方便自己加深印象0.0~我们在提交作业后,一般会分为4各阶段:(1)预处理阶段;(2)编译阶段;(3)执行阶段;(4)结果返回。其中,预处理阶段除了语法、调度配置与参数配置等出现问题外,一般不会成为卡点。我们重点关注复杂任务的编译、执行阶段的优化以及性能卡点。原创 2023-03-24 17:20:35 · 608 阅读 · 0 评论 -
Hadoop性能优化概述-数据膨胀&数据倾斜
Hadoop性能优化思路_数据膨胀&数据倾斜MapReduce执行过程基本概念处理流程1. 数据输入2. map过程3. shuffle过程4. reduce阶段数据倾斜数据倾斜的原因数据倾斜的优化办法开启参数数据仓库设计层面join倾斜优化group by倾斜优化multi distinct倾斜优化数据膨胀MapReduce执行过程基本概念mapreduce是一种适合大数据处理的编程模型,程序的本质就是并发,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发原创 2021-12-24 17:59:23 · 1182 阅读 · 0 评论