压缩方式:
HIVE压缩方式:
概述:压缩方式就类似于windows的压缩包,可以降低传输,提高磁盘利用率.
区分压缩协议好坏的参考纬度:
1.压缩比,即:压缩后文件大小
2.解压速度,即:读的速度
3.压缩速度,即:写的速度
存储方式
概述:分为 行存储 和列存储两种
具体划分:
行存储:TextFile(默认),SequenceFile
列存储:ORC(推荐),Parquet
HIVE调优--Fetch抓取
核心点:在整形HiveSQL的时候,能不转MR,就不转MR
设置方式:
set hive.fetch.task.conversion=fetch抓取的模式;
Fetch抓取模式:
more: 默认的,全表扫描,查询指定的列,limit分页查询,简单查询不走MR,其他的要转MR任务
minimal: 全表扫描,查询指定的列,limit分页查询不走MR,其他的要转MR任务
none: 所有的HiveSQL,底层都要转MR
Hive调优--本地模式
核心点:
如果HiveSQL必须要转MR任务来执行,则尽量在本机(本地)直接执行,而不是交由Yarn来调度执行,针对与数据量比较小的需求,可以提高效率
设置:
--开启本地mr
set hive.exec.mode.local.auto=true;
Hive调优--SQL优化
列裁剪:
能写sel