目录
前言
由于Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具,所以运行速度十分感人,有时候甚至慢到你怀疑人生。但其实只要你掌握一些常见的简单调优手段,就可以大幅提高Hive跑数的速度。本文会介绍一些常用的Hive调优小技巧,给整个进阶篇画上一个句号。
1. HiveQL实现流程优化
使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以必须去掉原有关系型数据库下开发的一些固有思维。
1.1 使用with as语法
在入门篇(十八)中已经介绍过with as的用法和优点,主要有以下几点:
- 代替多层子查询,提高HQL语句的可读性;
- 会将表预先加载入内存,代码运行效率高;
- 可以将多次访
本文介绍了Hive的常见调优技巧,包括使用with as语法提高HQL可读性和效率,分区剪裁与列剪裁减少数据量,避免在where中使用函数,减少函数嵌套,利用group by替代distinct去重,优化join操作如小表放左边,保持key一致,以及运用MapJoin。此外,还讨论了数据倾斜问题及其解决方案,并给出了参数设置优化建议。
订阅专栏 解锁全文
2650

被折叠的 条评论
为什么被折叠?



