那什么是spark 数据不均衡的问题呢?
当某一个column 的value 出现特别多次,比如1000次以上。然后table1 与table2 join 的时候,就会导致某个分区的task 执行时间特别长。详见下图,下图就是在spark join操作的时候遇到的数据分布不均衡,导致的某个task 执行时间过长。
比如,table1:
itemid | userid |
123 | abc |
123 | abce |
123 | acd |
123 | acd |
table2:
itemid | price |
123 | 100 |
table1 和 table2 inner join by itemid 的时候,所有的数据会进入一个partition。有