Hive相关优化
1:首先模型设计能解决很大问题,
2:其次就是解决数据倾斜,减少job数,
3:设置合理的map task和reduce task数可以有效提高性能,
4:数据量较大的时候,尽量不要用count(distinct)(会产生数据倾斜),
5:对小文件进行合并,
6:hive优化主要在于数据倾斜造成的运行压力过大,数据量大不是负载的重点,因为Hadoop天生就是跑批的。
(Hadoop 分布式文件系统 (HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。)