1. Run in Local Mode
数据处理比较小的时候就运行本地模式,
不需要分布式。
把阀值这三个设置改一下就是本地模式了。
2. JVM Reuse
Hadoop每当得到一个map或者reduce任务的时候,
就会启动一个新的JVM。
处理job时间比较短,但是启动JVM太费时了。
配置成JVM Reuse可以大大优化
3. Parallel Exectution 并行执行
这个很常用的,默认是关闭的。
hive很多阶段是可以并行执行的,
并不是每个阶段都互相依赖,
如果集群中资源利用效率不高,可以考虑开启此选项。
4. 查询优化
(1)map side join 设置为enable
(2)bucket map side join 也设置为ena