Hive专题-distinct优化

iflink.guojl

已于 2023-05-07 14:42:13 修改

阅读量1.7k

点赞数 1

分类专栏：大数据文章标签： hive hadoop 数据仓库

于 2022-01-10 06:54:43 首次发布

本文链接：https://blog.csdn.net/iflink/article/details/122389622

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、问题描述

在hive中count(distinct)很容易造成数据倾斜。但有时，“数据倾斜”又几乎是必然的。

我们来举个栗子：假设表sdk_session_details中记录了访问网站客户端会话信息，即：如果用户打开App客户端，则会产生一条会话信息记录在该表中，该表的粒度为“一次”会话，其中每次会话都记录了用户的唯一标示uuid，uuid是一个很长的字符串，假定其长度为64位。现在的需求是：每天统计当月的活用用户数——“月活跃用户数”（当月访问过app就为活跃用户）。我们以2016年1月为例进行说明，now表示当前日期。

这个问题逻辑上很简单，SQL也很容易写出来，如：

select
  count(distinct uuid)
from sdk_session_details t
where t.date >= '2019-06-01' AND t.date <= now

上述SQL代码中，很容易想到，时间跨度越大，上面的统计的数据量就会越大。更重要的是，在这种情况下，“数据倾斜”是必然的，因为只有一个reducer在进行count(distinct uuid)的计算，所有数据都流向唯一的一个reducer，不倾斜才怪。

二、分治优化一

其实，在count(distinct uuid)时候可以采用分治的思想来解决。对于上面的例子，首先我们按照uuid的前n位进行group by，并做count(distinct uuid)操作，然后再对所有的count(distinct uuid)结果进行求和。这里先把SQL写出来，然后再做分析。

-- 外层select求和
select
  sum(part_num) mau
from
(
  -- 内层select分别进行count(distinct)计算
  select
    substr(uuid, 1, 3) uuid_part,
    count(distinct uuid) as part_num
  from sdk_session_details 
  where date >= '2016-01-01' and date<= now
  group by substr(uuid, 1, 3)
) t;

这种方法的好处在于，在不同的reducer各自进行count(distinct uuid)计算，充分发挥hadoop的优势，然后进行求和。

三、分治优化二

其实，很多博客中都记录了使用group by操作代替count(distinct uuid)操作，但有时仅仅使用group by操作还不够，还需要加点小技巧。还是先来看一下代码：

--  第三层select
select
  sum(s.part_num) mau
from
(
  -- 第二层select
  select
    tag,
    count(*) part_num
  from
  (
      -- 第一层select
    select
      uuid, 
      cast(rand() * 100 as bigint) tag  -- 为去重后的uuid打上标记，标记为：0-100之间的整数。
    from sdk_session_details 
    where date >= '2016-01-01' and date <= now
    group by uuid   -- 通过group by，保证去重
   ) t
  group by tag
) s;

第一层select：对uuid进行去重，并为去重后的uuid打上整数标记
第二层select：按照标记进行分组，统计每个分组下uuid的个数
第三层select：对所有分组进行求和

上面这个方法最关键的是为每个uuid进行标记，这样就可以对其进行分组，分别计数，最后求和。如果数据量确实很大，也可以增加分组的个数。例如：cast(rand() * 1000 as bigint) tag

iflink.guojl

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive专题-distinct优化

目录一、问题描述二、分治优化一三、分治优化二一、问题描述在hive中count(distinct)很容易造成数据倾斜。但有时，“数据倾斜”又几乎是必然的。我们来举个栗子：假设表sdk_session_details中记录了访问网站客户端会话信息，即：如果用户打开App客户端，则会产生一条会话信息记录在该表中，该表的粒度为“一次”会话，其中每次会话都记录了用户的唯一标示uuid，uuid是一个很长的字符串，假定其长度为64位。现在的需求是：每天统计当月的活用用户数——“月活跃用户数”（当月访问过app就
复制链接

扫一扫