目录
第一章 数据倾斜问题
1.1 现象描述
在 Hive SQL 查询执行过程中,任务执行时间不均是常见的现象,部分任务明显慢于其他任务。这种不均衡通常是由数据倾斜导致的。数据倾斜指在分布式处理过程中,某些键值对应的数据量显著高于其他键值,使得处理这些键值的任务需要处理更多数据,从而延长整体处理时间。
在 Hive 中,数据倾斜常表现为某些 Reducer 处理的数据量远超其他 Reducer,导致整体查询性能大幅下降。数据倾斜是分布式数据处理中的常见问题,在处理大数据集时尤为突出。在 Hadoop 体系中,HDFS 和 MapReduce 是核心组件,而 Hive 作为常用的数据仓库工具,也常面临数据倾斜问题。
当数据倾