HiveSQL-窗口查询-区间合并

区间合并在业务需求开发中偶尔可以预见,LeetCode中第56题便是该场景的题。本文从该题解法开始,引申到该问题的HiveSQL实现(毕竟本人是数据开发,很多需求都得用SQL实现)。

Java实现

给出一个区间的集合,请合并所有重叠的区间。
示例1

输入: intervals = [[1,3],[2,6],[8,10],[15,18]]
输出: [[1,6],[8,10],[15,18]]
解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6]

示例2

输入: intervals = [[1,4],[4,5]]
输出: [[1,5]]
解释: 区间 [1,4] 和 [4,5] 可被视为重叠区间。

区间合并的思路总结起来就是,当前区间的左边界若小于前面区间的右边界,则与前面的区间合并为一个区间,且合并后的区间的右边界更新为当前区间的右边与之前右边界中的较大值;否则当前区间不能合并。Java代码如下所示:

public int[][] merge(int[][] intervals) {
        if(intervals == null || intervals.length <= 0) return new int[][]{};
        int n = intervals.length;
        Arrays.sort(intervals, Comparator.comparingInt(o -> o[0]));

        List<int[]> res = new ArrayList<>(n);
        int preMaxRight = intervals[0][1];
        int preMinLeft = intervals[0][0];

        for(int i = 1; i < n; i++) {
            if(intervals[i][0] <= preMaxRight) {
                preMaxRight = Math.max(preMaxRight, intervals[i][1]);
            } else {
                res.add(new int[]{preMinLeft, preMaxRight});
                preMaxRight = intervals[i][1];
                preMinLeft = intervals[i][0];
            }
        }
        res.add(new int[]{preMinLeft, preMaxRight});
        return res.toArray(new int[res.size()][]);
    }

Sql实现

区间合并问题的解法涉及当前数据与其之前一定范围数据的累计值(前面区间的右边界)的比较计算,在Sql中用窗口查询来解决此类问题。另外,解决这个问题有个技巧:

  1. 在用以上思路判断是否合并的时候,我们用一个标志列标志当前区间是否是一个新的区间的开始,用1表示;否则当前区间需要与其前面的区间合并,用0表示。
  2. 再一次用窗口查询,运用sum函数,计算从窗口开始到当前行的标志列的和,和相等的即为同一窗口的数据(因为不是合并后区间开始位置的原始区间的标志位为0,累积到当前的sum值一定与其所属的合并后区间的开始原始区间相同)。
    假设表t中有两列start_date与end_date分别表示原始区间的左右界,banner与position为业务相关的字段;需求是将同一banner且同一position下的区间进行合并,则用Sql对区间进行合并的解法:
with grp_starts as (
  select banner, position, start_date, end_date,
  case
    when start_date > max(end_date) over(
      partition by banner, position order by start_date, end_date
      rows between unbounded preceding and 1 preceding
    )
    then 1 else 0
  end grp_start
  from t
)

, grps as (
  select banner, position, start_date, end_date,
  sum(grp_start) over(
    partition by banner, position order by start_date, end_date
    rows between unbounded preceding and current row
  ) grp
  from grp_starts
)

select banner, position,
min(start_date) start_date,
max(end_date) end_date
from grps
group by banner, position, grp
order by 1, 2, 3;
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值