在前面一篇里面,算法-一个经典sql 题和一个Java算法题 大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目,解决连续问题,本文继续总结关于连续性的套路,来自于实际生产项目的问题,本文略去其他不重要信息字段,来从更深地层次解决问题,由于在生产中,常常是理解需求,转换需求,让需求拆解为更通用的处理方式,同时从解决难题中提高自己,解决这些问题,也是快乐的源泉之一😀。
1.生产问题原始描述
关于给用户打标签的问题,对于标签的数据源在实际环境下几乎是覆盖全部门甚至全公司的,有的数据源本身是明细方式,有的是原始ods日志方式,有的是维度表,有的是名单表,对于需求方来说要的是快速迭代上线标签,看需求或者数据仓库划分或者处理麻烦程度,往往会采用不同的处理方式,另外对于标签的应用方来说一定会有人查值,值查人,资产分析等,本文的例子就一个名单表,什么是名单表呢,就是圈客的结果,比如满足某条件某条件的一堆id,标签天然就是为满足圈客用的,但是原始数据它是圈客的结果,所以同时为了使得标签在业务方使用起来更方便,所以把名单表加工成标签,那么需求就确定了,从名单表里面加工出标签。
原始表如下
# id dt
1 10
2 10
2 11
3 11
解释,为了说明更简单,假设日期类型都用数字来表示,每天会有一群去重id,下一天的id更这一天的id必然是两个交叉圆的形式,