- 博客(2)
- 资源 (18)
- 收藏
- 关注
原创 hive学习之三:项目中的hive优化实践
1.小表放入内存,在map端join,并不是所有聚合操作都在reducer端操作,慎重使用mapjoin,一般行数小于2000行,大小小于1M2.hive.groupby.skewindata变量从上面groupby语句可以看出,这个变量是用于控制负载均衡的。当数据出现倾斜时,如果该变量设置为true,那么Hive会自动进行负载均衡。当该变量设为 true时候,不可以使用distinct
2016-05-17 21:37:49 1362
原创 hive学习之二:hive sql使用总结及遇到的问题
1.hive在连接中不支持不等值连接,不支持or,where条件后不支持子查询。分别举例如下及实现解决办法。 1.1.不支持不等值连接 错误:select * from a inner join b on a.id 替代方法:select * from a inner join b on a.id=b.id and a.id is null; 1.2.不
2016-05-12 09:06:31 17319
yarn-utils.py
2016-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人