hive 性能调优
前言
hive在大数据离线开发使用过程占比还是挺大的,熟练掌握hive调优,是每个大数据从业人员的基本要求了
目录
- SQL 优化
- 数据块大小对性能影响
- JOIN优化
- 存储格式对性能影响
- 分区表分同表
- 引擎
SQL优化
- with的使用
with语法将数据查询到内存,然后后面其它查询可以直接使用
-- with常用的几种方式
-- routine style
with a1 as ( select * from a where id between 1 and 20 )
select * from a1;
-- from style
with a1 as ( select * from a where id between 1 and 20 )
from a1
select *;
-- chaining CTEs
with c as ( select * from b where id between 5 and 10 ), -- 链式风格: 数据从a -> b -> c,b、c放内存中供查询
b