1.数据倾斜:原因:1.数据特点 2.key设计不合理 本质:数据任务分配不均匀[分区] hive spark都有, shuffle
解决:1.避免shuffle。2.重新设计key和分区算法(eg:打散key,根本上解决) 3.提高电脑性能(加内存、加CPU、加核)。
ReduceTask数大于等于2必然有shuffle过程,shuffle 会使1.性能低 2.数据倾斜 应尽可能避免使用shuffle过程。
10-18
10-18
1.数据倾斜:原因:1.数据特点 2.key设计不合理 本质:数据任务分配不均匀[分区] hive spark都有, shuffle
解决:1.避免shuffle。2.重新设计key和分区算法(eg:打散key,根本上解决) 3.提高电脑性能(加内存、加CPU、加核)。
ReduceTask数大于等于2必然有shuffle过程,shuffle 会使1.性能低 2.数据倾斜 应尽可能避免使用shuffle过程。