hive sql 优化

sql优化:
----------------------------------------------------------------
数据倾斜的处理方式:
--
Q: 活动数据 和 对应的维表进行关联,其中某个活动特别的大。
 
A:
    1) 给关联健加入一个随机的 1-10的值
    2)将维度表 的关联健, 每个加上 1-10的值,将维度表扩充十倍。
    3)然后将2个表进行join,从而来消除数据倾斜。
 
--
尽量不使用count distinct
    
    1) 通过select子查询优化
    2) 通过建立临时表                                                                                               
--
用in 来代替join
select id,name from tb1 where id in(select id from tb2); in 要比join 快
--
Map join :
连接发生在map阶段 , 适用于小表 连接 大表
大表的数据从文件中读取
小表的数据存放在内存中(hive中已经自动进行了优化,自动判断小表,然后进行缓存)
 
--  
1.  将大表放后头
3. 尽量尽早地过滤数据
4.尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑
5.避免使用select * , 不用列不要放进去
6.过滤不使用的数据分区
2. 使用相同的连接键
 
--
配置 优化----------------------------------------------------------------------
 
设置map 和reduce 为合理的数量
合并小文件
 
 

转载于:https://www.cnblogs.com/lt1548748657/p/11609268.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值