实时订阅推送设计与实现(2024java面试最新场景题解答)

​什么是订阅推送?就是用户订阅了优惠劵的推送,在可领取前的一分钟就要把提醒信息 推送到用户的 app 中。具体方案就是到具体的推送时间点了,coupon 系统调用消息中 心的推送接口,把信息推送出去。 

下面我们分析一下这个功能的业务情景。假设公司目前注册用户 6000W+,比如有一 张无门槛的优惠劵下单立减 20 元,那么抢这张劵的人就会比较多,我们保守估计 10W+,百万级别不好说。我们初定为 20W 万人,那么这 20W 条推送信息要在一分 钟推送完成!并且一个用户是可以订阅多张劵的。

所以我们知道了这个订阅功能的有两个突出的难点: 

1、推送的实效性:推送慢了,用户会抱怨没有及时通知他们错过了开抢时机。 

2、推送的体量大:爆款的神劵,人人都想抢!然而推送体量又会影响到推送的实效性。这真是一个让人头疼的问题!那就让我们把问题一个个解决掉吧!

推送的实效性的问题:当用户在领劵中心订阅了某个劵的领取提醒后,在后台就会生成 一条用户的订阅提醒记录,里面记录了在哪个时间点给用户发送推送信息。所以问题就 变成了系统如何快速实时选出哪些要推送的记录! 

方案 1:MQ 的延迟投递。MQ 虽然支持消息的延迟投递,但是不适合用来做精确 时间点投递!并且用户执行订阅之后又取消订阅的话,要把发出去的 MQ 消息 delete 掉这个操作有点头大,短时间内难以落地!并且用户可以取消之后再订阅, 这又涉及到去重的问题。所以 MQ 的方案否掉。

方案 2:传统定时任务。这个相对来说就简单一点,用定时任务是去 db 里面 load 用户的订阅提醒记录,从中选出当前可以推送的记录。但有句话说得好任何脱离实 际业务的设计都是耍流氓。下面我们就分析一下传统的定时任务到底适不适合我们的这个业务!

如上表格所示,可以看到一般传统的定时任务存在以下缺点: 

1、性能瓶颈。只有一台机在处理,在大体量数据面前力不从心! 

2、实效性差。定时任务的频率不能太高,太高会业务数据库造成很大的压力! 

3、单点故障。万一跑的那台机挂了,那整个业务不可用了。这是一个很可怕的事情!所以传统定时任务也不太适合这个业务。那有其他解决方案吗?其实可以对传统的定时任务做一个简单的改造即可!把它变成可 以同时多机跑,并且实效性可以精确到秒级,并且拒绝单点故障的定时任务集群!这其 中就要借助我们的强大的 redis 了。 

方案 3:定时任务集群 首先我们要定义定时任务集群要解决的三个问题!1、实效性要高 2、吞吐量要大 3、服务要稳定,不能有单点故障 下面是整个定时任务集群的架构图。

架构很简单:我们把用户的订阅推送记录存储到 redis 集群的 sortedSet 队列里面,且以提醒用户提醒时间戳作为 score 值,然后在我们个每业务 server 里面起一个定时器 频率是秒级,我的设定就是 1s,然后经过负载均衡之后从某个队列里面获取要推送的 用户记录进行推送。下面我们分析以下这个架构。 

1、性能:除去带宽等其它因素,基本与机器数成线性相关。机器数量越多吞吐量越大, 机器数量少时相对的吞吐量就减少。 

2、实效性:提高到了秒级,效果还可以接受。 

3、单点故障?不存在的!除非 redis 集群或者所有 server 全挂了。 

这里解释一下为什么用 redis? 

  1. redis 可以作为一个高性能的存储 db,性能要比 MySQL 好很多,并且支持持久化, 稳定性好。

2. redis SortedSet 队列天然支持以时间作为条件排序,完美满足我们选出要推送的 记录。既然方案已经有了,怎么实现呢?首先我们以 user_id 作为 key,然后 mod 队列数 hash 到 redis SortedSet 队列里面。为什么要这样呢,因为如果用户同时订阅了两张劵并且推送时间很近,这样的两条推送 就可以合并成一条,并且这样样 hash 也相对均匀。下面是部分代码的截图:

然后要决定队列的数量,一般正常来说我们有多少台处理的服务器就定义多少条队列。因为队列太少,会造成队列竞争,太多可能会导致记录得不到及时处理。然而最佳实践是队列数量应该是可动态配置化的,因为线上的集群机器数是会经常变 的。大促的时候我们会加机器是不是,并且业务量增长了,机器数也是会增加是不是~。所以我是借用了淘宝的 diamond进行队列数的动态配置。

我们每次从队列里面取多少条记录也是可以动态配置的

这样就可以随时根据实际的生产情况调整整个集群的吞吐量。所以我们的定时任务集 群还是具有一个特性就是支持动态调整。最后一个关键组件就是负载均衡了。这个是非常重要的!因为这个做得不好就会可能导 致多台机竞争同时处理一个队列,影响整个集群的效率!在时间很紧的情况下我就用了 一个简单的方案,利用 redis 一个自增 key,然后 mod 队列数量算法。这样就很大程 度上就保证不会有两台机器同时去竞争一条队列。

最后我们算一下整个集群的吞吐量 10(机器数) * 2000(一次拉取数) = 20000。然后以 MQ 的形式把消息推送到消 息中心,发 MQ 是异步的,算上其它处理 0.5s。其实发送 20W 的推送也就是 10 几 s 的事情。到这里我们整个定时任务集群就差不多基本落地好了。

反过来仔细思考了一下,有以下可以优化的点:

1、加监控, 集群怎么可以木有监控呢,万一出问题有任务堆积怎么办。 

2、加上可视化界面。 

3、最好有智能调度,增加任务优先级。确保优先级高的任务先运行。 

4、资源调度,万一机器数量不够,力不从心,优先保证重要任务执行。

篇幅有限,只给大家在下方👇截图展示部分大纲目录啦!有需要获取完整版资料的小伙伴,可以点击下方传送门即可免费获取哦~

免费领取icon-default.png?t=O83Ahttps://fhos.tulcn.cn/cqdETW

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值