hive 优化

本文详细介绍了Hive的优化方法,包括SQL优化(如去除多余列、利用分区信息等)、平台优化(如使用Tez或Spark)、架构优化(如分区、压缩)以及MapReduce层面的调整,通过实例分析了如何控制map和reduce数量以提高执行效率,还讨论了count(distinct)的优化和数据倾斜的解决策略,提供了实际操作建议。
摘要由CSDN通过智能技术生成

.Sql 优化:

1. 根据不同的业务场景进行sql优化

2. 去除查询过程中不需要的 column

3. Where 条件判断再 tablescan 阶段就进行过滤

4. 利用partition信息 获取有效的数据信息

5. Map端的jion 以大表做驱动 小表加入内存当中

6. 调整jion的顺序 进来使 大表作为驱动表。

7. 对数据分布不均匀的表进行group by 时, 为了避免 数据集中到 reduce  可以分成两个阶段来执行 第一阶段利用distionct 第二阶段 再进行group by 。 

二.平台方面的优化

hive on tez

Hive spark

通过使用其他的计算引擎框架

.整体架构方面的优化

 现阶段 hive的整体架构 不紧可以支持 MapReduces 并且支持 Tez ,Spark 等计算引擎。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值