hive优化最后一版整理

一、物理存储方面

hive数据存储的格式有文本格式(TextFile)、二进制序列化文件(sequenceFile)、行列式文件(RCFile)、Apache Parquent 和 优化的行列式文件(ORCFile)

ORCFile 和 Parquent,高效的数据存储和数据处理性能得以在实际的生产环境中大量运用。

同时 ORCfile对于索引的处理进行了优化 Bloom Filter Index 和 Row Group Index  链接 Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index – lxw的大数据田地

orcFile和parquent的对比hive orc 和 parquet简单对比_oracle8090的博客-CSDN博客_parquet和orc区别

二、逻辑方面

1. 过滤掉脏数据

如果大key是无意义的脏数据,直接过滤掉。

2. 数据预处理

数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。

3.两表join的时候 如果有需要筛选条件,现在子查询中将筛选条件筛选以后再做join操作

4.count(distinct id)  写法修改

改为 select count(1) from (select id from table group by id) a 

5. 建模过程中如果 c d 表产生的时候都需要 A B 的相同的结果集,可以将AB 的结果集作为一个中间层,供下游使用

三、配置方面的优化

hvie 优化_oracle8090的博客-CSDN博客

四、数据倾斜 

Hive数据倾斜的原因及主要解决方法_oracle8090的博客-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值