《大数据之路:阿里巴巴大数据实践》系列丛书
第1篇 数据技术篇
第2章 日志釆集
第3章 数据同步
第4章 离线数据开发
第5章 实时技术
第6章 数据服务
第7章 数据挖掘
第2篇 数据模型篇
第8章 大数据领域建模综述
第9章 阿里巴巴数据整合及管理体系
第10章 维度设计
第11章事实表设计
第3篇数据管理篇
第12章 元数据
第13章 计算管理
第14章 存储和成本管理
本文深入探讨了阿里巴巴大数据平台MaxCompute在计算管理方面的优化,包括系统优化的HBO(基于历史的优化器)和CBO(基于代价的优化器)。HBO通过分析任务历史执行情况,动态调整资源分配,提高CPU和内存利用率,增加Instance并发数,缩短执行时长。CBO引入代价模型,根据统计信息选择最优执行计划,提高性能。文章还介绍了Map和Reduce倾斜的解决方案,如MapJoin、处理空值和热点值的策略,旨在提升大数据处理的效率和资源利用率。
第1篇 数据技术篇
第2章 日志釆集
第3章 数据同步
第4章 离线数据开发
第5章 实时技术
第6章 数据服务
第7章 数据挖掘
第2篇 数据模型篇
第8章 大数据领域建模综述
第9章 阿里巴巴数据整合及管理体系
第10章 维度设计
第11章事实表设计
第3篇数据管理篇
第12章 元数据
第13章 计算管理
第14章 存储和成本管理

被折叠的 条评论
为什么被折叠?