统计近n天不重复的数据信息(优化版)

统计近n天不重复的数据:

HBase表结构设计:

  • A表存储所有的数据信息,记录数据最新的时间;
  • B表记录近n天的案件进件数;

例如:案件x的进件时间分别为5/1、5/2、5/4

进件号进件时间
x5/1
x5/2
x5/4

表A、B的记录变化如下
1、2、3、4列表示当日与其相差n天的重复案件数

下面演示进件后表A、B的变化

5/1 日进件后表记录如下:
表A:

进件号进件时间
x5/1

表B:

进件号进件时间当日进件总数1234
x5/110000

5/2进件后表记录如下:
表A:

进件号进件时间
x5/2

表B:

进件号进件时间当日进件总数1234
x5/110000
x5/211000

注:1列数字加1,5/2与5/1有重复数据一条
5/3无进件后表记录如下:
表A:

进件号进件时间
x5/2

表B:

进件号进件时间当日进件总数1234
x5/110000
x5/211000
x5/300000

5/4进件后表记录如下:
表A:

进件号进件时间
x5/2 --> 5/4

表B:

进件号进件时间当日进件总数1234
x5/110000
x5/211000
x5/300000
x5/410100

表A由5/2改为5/4,相差2天,因此2列加1

最后假设统计近三天的进件总数:
取表B

进件号进件时间当日进件总数1234
x5/110000
x5/211000
x5/300000
x5/410100

如图,加粗的数据就是3天内的进件总数,做删除标记的就是近三天的重复案件数。
计算近n天的数据,可以根据表结构追溯历史数据,但是计算的时间复杂度为O(n^2),所以结合下面的设计,就可以得到很好的优化:
表A的设计不变,表B增加一列,变化如下:

进件号进件时间当日进件数
x5/11
进件号进件时间当日进件数
x5/11 -->1
x5/21
进件号进件时间当日进件数
x5/11 -->0
x5/21
x5/30
进件号进件时间当日进件数
x5/11 -->0
x5/21 -->0
x5/30
x5/11

结合上面的设计,统计近n天的时间复杂度为O(n)

结合上面的两种思路,就能使数据去重的计算得到很好的优化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

薛小布

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值