一、物理存储方面
hive数据存储的格式有文本格式(TextFile)、二进制序列化文件(sequenceFile)、行列式文件(RCFile)、Apache Parquent 和 优化的行列式文件(ORCFile)
ORCFile 和 Parquent,高效的数据存储和数据处理性能得以在实际的生产环境中大量运用。
同时 ORCfile对于索引的处理进行了优化 Bloom Filter Index 和 Row Group Index 链接 Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index – lxw的大数据田地
orcFile和parquent的对比hive orc 和 parquet简单对比_oracle8090的博客-CSDN博客_parquet和orc区别
二、逻辑方面
1. 过滤掉脏数据
如果大key是无意义的脏数据,直接过滤掉。
2. 数据预处理
数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。
3.两表join的时候 如果有需要筛选条件,现在子查询中将筛选条件筛选以后再做join操作
4.count(distinct id) 写法修改
改为 select count(1) from (select id from table group by id) a
5. 建模过程中如果 c d 表产生的时候都需要 A B 的相同的结果集,可以将AB 的结果集作为一个中间层,供下游使用