hive distinct优化

最新推荐文章于 2024-03-15 23:35:11 发布

cjlion

最新推荐文章于 2024-03-15 23:35:11 发布

阅读量1.9k

点赞数

2018年01月05日 15:27:39

阅读数：103

hive针对count(distinct xxx)只产生一个reduce的优化。

0x00 造成的原因

由于使用了distinct，导致在map端的combine无法合并重复数据；对于这种count()全聚合操作时，即使设定了reduce task个数，set mapred.reduce.tasks=100；hive也只会启动一个reducer。这就造成了所有map端传来的数据都在一个tasks中执行，成为了性能瓶颈。

0x01 解决方式一（分治法）

该方法优势在于使用不同的reducer各自进行COUNT(DISTINCT)计算，充分发挥hadoop的优势，然后进行求和，间接达到了效果。需要注意的是多个tasks同时计算产生重复值的问题，所以分组需要使用到目标列的子串。

    SELECT 
        SUM(tmp_num) total
    FROM
        (select
            substr(uid,1,4) tag,
            count(distinct substr(uid,5)) tmp_total
        from
            xxtable
        group by
            substr(uid,1,4)
        )t1

经过验证，该方法在5000万数据量的情况下，不优化需要5分钟，经过优化需要3分钟，还是有一定的提升的。

0x10 解决方式二（随机分组法）

核心是使用group by替代count(distinct)。

SELECT--3
    SUM(tc) 
FROM
    (select--2 
        count(*) tc,
        tag  
    from 
        (select--1
            cast(rand() * 100 as bigint) tag,
            user_id 
        from 
            xxtable
        group by  
            user_id
        )t1 
    group by 
        tag
    )t2;

1层使用随机数作为分组依据，同时使用group by保证去重。
2层统计各分组下的统计数。
3层对分组结果求和。

经过验证，该方法在5000万数据量的情况下，不优化需要5分钟，经过优化需要2.5分钟，有进一步提升。

cjlion

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive distinct优化

2018年01月05日 15:27:39阅读数：103hive针对count(distinct xxx)只产生一个reduce的优化。0x00 造成的原因由于使用了distinct，导致在map端的combine无法合并重复数据；对于这种count()全聚合操作时，即使设定了reduce task个数，set mapred.reduce.tasks=100；hive也只会启动一个reducer。这...
复制链接

扫一扫