- 博客(1)
- 收藏
- 关注
原创 巧用Hive自带函数进行多字段分别去重计数统计
巧用Hive自带函数进行多字段分别去重计数统计1-group by 和 distinct大前提:大表统计能使用group by就不要使用distinct!!尤其是在数据量非常大的时候,distinct会将所有的统计信息加载到一个reducer里取执行,这就是所谓的数据倾斜。而group by会把相同key的记录放到一个reducer区计算,因此效率会提高很多。业务需要对一个分区内一百亿...
2018-11-12 14:58:52 10455 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人