Hive_SQL_计算同时最大在线人数

最新推荐文章于 2025-03-26 16:34:03 发布

帅成一匹马

最新推荐文章于 2025-03-26 16:34:03 发布

阅读量2.8k

点赞数 1

分类专栏： HIVE

原文链接：https://blog.csdn.net/u010003835/article/details/106738728?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162789126816780366593143%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162789126816780366593143&biz_id=0&utm_med

版权

HIVE 专栏收录该内容

20 篇文章

订阅专栏

该博客介绍了如何使用SQL，特别是窗口函数sum()over()，来计算特定日期的最大同时在线人数。通过模拟实时计数的过程，将登录和登出事件转化为行，然后进行排序并累加标记（登录+1，登出-1），最终得到最大并发数。这种方法在SparkSQL中处理千万级别数据时，耗时65秒，效率可接受。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目

计算最大同时在线人数，表connection_detail记录用户每一次上线和下线时间：

user_id	login_time（上线时间)）	logout_time（下线时间）	dt
213142	2019-01-01 12:21:22	2019-01-01 13:45:21	20190101
412321	2019-01-01 13:35:11	2019-01-01 16:01:49	20190101
…	…	…	…

解法

大致思路窗口函数 sum() over()

我们先抛开sql，来考虑实时计算中我们怎么处理该问题。是不是我们会实时记录着一个变量online_cnt，当一个用户登录时加1，用户下线时减1？

再假如我让你用python离线处理这个问题你会怎么做。应该先把登录时间和登出时间这两列打散成行，然后进行排序，最后一行行读入，当读到一个登录时间时online_cnt加1，读到登出时间时online_cnt减1。

回到sql，我们来尝试用SQL实现上述逻辑。我们给登录时间加一个数值标记1，登出时间加标记-1。然后对排序后的数据求和该字段，最终得到我们的结果。

select
    max(max_index)
from 
(
    select
        sum(index) over(order by `timestamp`) as max_index --排序后第一行到本行的和
    from
    (
        select
            order_id,
            unix_timestamp(login_time) as `timestamp`,
            1 as index
        from
            connection_detail
        where
            dt = '20190101'
            and is_td_finish = 1
        union all
        select
            order_id,
            unix_timestamp(logout_time) as `timestamp`,
            -1 as index
        from
            connection_detail
        where
            dt = '20190101'
    )a  --将登录时间和登出时间多列成多行
)b

对于sum() over()的用法，不熟悉的同学可以看我的博客sum(…) over(…) 连续求和分析函数。

该代码对于千万量级的数据sparksql计算了65秒，属于一个可以接受的范围。

原文地址：https://blog.csdn.net/u010003835/article/details/106738728?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162789126816780366593143%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162789126816780366593143&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-1-106738728.first_rank_v2_pc_rank_v29&utm_term=sql%E6%9C%80%E5%A4%A7%E5%90%8C%E6%97%B6%E5%9C%A8%E7%BA%BF%E4%BA%BA%E6%95%B0&spm=1018.2226.3001.4187