1、需求:
需求比较简单,本产品每天会有大量的视频产生,想计算每个视频在当天、近7天、近30天的曝光量都是多少。
我们有一个底表,就是一张曝光表,很原始的数据
一个视频被一个消费者看到了就算曝光一次,也就是对应表中的一行。
去掉一些无关的维度信息,只保留关键信息
表名:show_table
字段名:p_date(日期分区一般为yyyyMMdd格式),pohto_id(视频id),user_id(用户id),ts(时间戳)
2、解法一:
有同学看到这个需求,想想这太简单了。用了5分钟写出了下面的答案:
select
photo_id
,sum(if(p_date='{today}',1,0)) as latest_1d_show_cnt
,sum(if(p_date>'{today-7}' and p_date<='{today}',1,0)) as latest_1d_show_cnt
,sum(if(p_date>'{today-30}' and p_date<='{today}'

本文介绍了如何在Hive中计算视频近30天的曝光量,通过分析两种方法的优缺点,包括直接计算与滚动计算。直接计算面临大数据量扫描的问题,而滚动计算虽然提高效率,但存在上游数据回刷、维表数据延迟、业务变更灵活性及回溯数据困难等挑战。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



