干货:Hive优化与数据倾斜总结!
Hive优化与数据倾斜a.优化: 1.使用mapJoin功能,默认为打开状态 2.创建表的时候,采用分区表和分桶表,可以避免全表扫描,加快速度 3.采用行列过滤,join where 改为 先where再join 4.小文件方向: -- JVM重用,重用次数10~20次 -- conbineHiveInputformat合并小文件,可以减少mapTask数量 -- merge(输出时合并小文件) SET hive.merge.mapfiles = true; 默认tr







