背景:有一段sql,A left join B,查出的结果再 left join C,A表5亿条数据,B表2条,C表16条
现象:用spark直接跑发生数据倾斜,55分钟没有跑出来,就把任务停了
解决过程:由于确定是数据倾斜引起的,然后这三个表的数据量有个大概了解,所以直接采取mapjoin,先切换成hive,然后加入mapjoin的参数,小表阈值设置为20兆,结果运行时间缩短至10分钟。
mapjoin
最新推荐文章于 2024-07-24 17:08:13 发布
背景:有一段sql,A left join B,查出的结果再 left join C,A表5亿条数据,B表2条,C表16条
现象:用spark直接跑发生数据倾斜,55分钟没有跑出来,就把任务停了
解决过程:由于确定是数据倾斜引起的,然后这三个表的数据量有个大概了解,所以直接采取mapjoin,先切换成hive,然后加入mapjoin的参数,小表阈值设置为20兆,结果运行时间缩短至10分钟。