Hive开发经验总结

1. 了解Hive的基本概念

对Hive基本概念的了解,有助于对移动开发平台的理解与掌握,便于项目开展。尤其是其与普通关系型数据库的区别。
这里写图片描述

2. 数据倾斜(Data skew)

概念:简单理解就是数据分布不均匀。有这么一种说法:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。
产生场景:group by和 join
解决方法
a) 调整reduce内存值
b) 指定key值(distribute by、cluster by)
c) 将reduce阶段的join操作调整到map阶段

3. 小技巧

建立中间表
有些程序的逻辑较为复杂,可通过分析拆解为多个中间表的形式。
建立中间表的好处主要有两点:
a) 降低单个程序的复杂度,提供运行成功率;
b) 数据可溯源,易于后期扩展。

建立临时表
在一个程序内建立临时表类似于视图的功能,保存中间结果用于计算,提高运行效率。

数据规范化
项目中使用到的数据来自不同部门,由不同的人生产,容易出现很多格式上不一致的问题。
a) null值处理
null值用于运算的结果始终为null,程序中可使用 nvl(字段名,默认值) 进行处理,以防出错。
b) 空白符处理
数据表中某些字段使用空格补全,如经常出现product_no字段,用户手机号前后存在空格,导致匹配失败。可使用trim()函数处理
c) 注意分隔符
因为hive是“读模式”,一定要注意表的分隔符,如app名称字段“生活|美团”,如果再使用“|”作为表分隔符则会出错。

极大表与极小表关联问题
将join操作调整到map阶段执行,避免产生笛卡尔积,提升运行效率
select /+mapjoin( tab_small )/ from tab_small join tab_huge on …

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值