巧用Hive自带函数进行多字段分别去重计数统计

最新推荐文章于 2024-05-30 17:40:25 发布

月亮与六便士丶

最新推荐文章于 2024-05-30 17:40:25 发布

阅读量1w

点赞数 1

分类专栏：大数据分析文章标签： Hive group by distinct collect_set

本文链接：https://blog.csdn.net/qq_41577045/article/details/83992165

版权

本文介绍了如何利用Hive的group by和collect_set函数进行多字段去重计数统计，避免数据倾斜问题。在面对大量数据时，传统的distinct操作可能导致效率低下，而通过group by与collect_set的组合，可以提高统计效率，特别是在需要对多个字段进行去重计数的场景下。同时，文章提醒注意，当去重后的结果数量较大时，仍可能引发数据倾斜。

摘要由CSDN通过智能技术生成

巧用Hive自带函数进行多字段分别去重计数统计

1-group by 和 distinct

大前提：大表统计能使用group by就不要使用distinct！！

尤其是在数据量非常大的时候，distinct会将所有的统计信息加载到一个reducer里取执行，这就是所谓的数据倾斜。而group by会把相同key的记录放到一个reducer区计算，因此效率会提高很多。

业务需要对一个分区内一百亿记录进行多个字段的去重统计。本着以上原则写出了以下代码:

SET hive.map.aggr=TRUE;
SET hive.optimize.skewjoin = TRUE;
SET hive.groupby.skewindata=TRUE;
SET mapreduce.input.fileinputformat.split.minsize=256000000;
SET mapreduce.input.fileinputformat.split.maxsize=512000000;
SET mapreduce.input.fileinputformat.split.minsize.per.node=512000000;
SET mapreduce.input.fileinputformat.split.minsize.per.rack=512000000

最低0.47元/天解锁文章

月亮与六便士丶

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
巧用Hive自带函数进行多字段分别去重计数统计

巧用Hive自带函数进行多字段分别去重计数统计1-group by 和 distinct大前提：大表统计能使用group by就不要使用distinct！！尤其是在数据量非常大的时候，distinct会将所有的统计信息加载到一个reducer里取执行，这就是所谓的数据倾斜。而group by会把相同key的记录放到一个reducer区计算，因此效率会提高很多。业务需要对一个分区内一百亿...
复制链接

扫一扫

专栏目录