数据均衡问题指的就是某个节点或者某几个节点的任务运行的比较慢,拖慢了整个Job的进度。 实际上数据均衡问题就是数据倾斜问题,解决方案同解决数据倾斜的方案。 MapReduce中分区默认是按hashcode来分的,用户可以自定义分区类,需要继承系统的Partitioner 类,重写getPartition()方法即可