大数据开发-Sql-涉及迭代数据的sql问题处理思路

本文探讨了在大数据开发中处理涉及迭代数据的SQL问题,特别是关于名单表的标签生成。通过分析原始需求,将问题拆解为求解有效状态、最早和最晚时间,利用日期函数、连续日期的排名、分组 gid 以及处理特殊问题的方法。总结了解决这类问题的通用套路,包括使用datediff、date_sub等日期函数,以及lag和lead窗口函数、自表关联等技巧。
摘要由CSDN通过智能技术生成

在前面一篇里面,算法-一个经典sql 题和一个Java算法题 大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目,解决连续问题,本文继续总结关于连续性的套路,来自于实际生产项目的问题,本文略去其他不重要信息字段,来从更深地层次解决问题,由于在生产中,常常是理解需求,转换需求,让需求拆解为更通用的处理方式,同时从解决难题中提高自己,解决这些问题,也是快乐的源泉之一😀。

1.生产问题原始描述

关于给用户打标签的问题,对于标签的数据源在实际环境下几乎是覆盖全部门甚至全公司的,有的数据源本身是明细方式,有的是原始ods日志方式,有的是维度表,有的是名单表,对于需求方来说要的是快速迭代上线标签,看需求或者数据仓库划分或者处理麻烦程度,往往会采用不同的处理方式,另外对于标签的应用方来说一定会有人查值,值查人,资产分析等,本文的例子就一个名单表,什么是名单表呢,就是圈客的结果,比如满足某条件某条件的一堆id,标签天然就是为满足圈客用的,但是原始数据它是圈客的结果,所以同时为了使得标签在业务方使用起来更方便,所以把名单表加工成标签,那么需求就确定了,从名单表里面加工出标签。

原始表如下

# id  dt
1   10
2   10
2   11
3    11

解释,为了说明更简单,假设日期类型都用数字来表示,每天会有一群去重id,下一天的id更这一天的id必然是两个交叉圆的形式,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值