大促场景下云通信高可用、稳定性实战

简介:为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。

为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。

云通信海报.png

本次分享主要包括三个方面,第一是针对和稳定性,云通信业务架构如何保证;第二是从流量和整个流程和机制上,如何保障稳定性;第三是流量控制体系是怎么支持云通信的高可用、稳定性的。

云通信平台技术架构

云通信的整体平台架构构建在阿里云的基础设施之上,技术架构上则分成三层的架构:

第一层架构多网关分组这一层,主要是面向供应链体系,通过多协议适配、多接入方式、多region部署解决供应链资源快速的接入和使用,同时在高可用性上通过物理、逻辑多维度的隔离的隔离措施以及全覆盖的心跳管理体系,解决供应链通道出现故障时的快速隔离和恢复。

第二层是业务处理层,核心包括风控体系以及资源的智能调度、智能决策。主要是针对通信业务比较核心的基础能力平台,技术上基于多队列、削峰填谷、业务客户等维度资源隔离、延迟、限流、降级容灾等一系列的手段保障平台稳定运行。通过这些年的积累,形成了通信业务的安全、调度平台,结合ASR、TTS、NLP等AI技术,解决业务的安全、多模型的调度策略,让通信业务更健康、更高效的触达消费者。

最上层是面向客户的统一接入层,为了能让客户更方便的管理和使用云通信的服务,除了提供官网控制台的基础开通、查询等功能,我也提供了面向开发者的多语言的OpenAPI SDK以及移动、PC端侧SDK,覆盖各种业务场景,通过技术手段帮助客户快速、便捷地集成使用云通信的能力。

屏幕快照 2020-12-22 下午4.56.08.png

多网关分组架构

大促场景下流量是非常大的,云通信在面对洪峰流量的时候,需要按照业务场景进行隔离,针对容灾情况、资源、供应链、热点数据处理进行隔离。这一套非常标准的流程和机制,能保证云通信针对高并发的情况下的系统稳定性,实现客户角度的完全无感知。

流量控制系统架构

通常在大促场景下,客户的入口流量可能会呈现非常大的突发性,从客户入口量进来以后,经过中间这层核心的流量管控机制,最终保证客户的请求非常平稳的分发到不同的地域、分组以及机房。

屏幕快照 2020-12-22 下午4.55.50.png

再举个一个更实际的例子,假设我们把洪峰流量比喻成水流,那么流量控制系统就是三峡这样的水利系统,当遭遇流量洪峰,如果不被很好控制,很有可能会带来业务场景的损失,或者达不到SLA要求,所以流量管控体系非常重要。

基于阿里云通信流量控制系统,即使入口流量非常巨大,也能通过流量控制器将并发流量平缓、稳定的分发到不同网关和地域分组上,保证资源的稳定性。同时,任何一个节点出现了不稳定的情况,系统都会第一时间感知并且做出调整,整个过程客户无感知。对于整个流量控制系统的架构来说,客户从入口流量到出口流量的场景是非常丰富、复杂的,而阿里云通信整体的控制体系可以完成自动化的闭环,利用削峰填谷等平滑调度策略,保证业务的平稳。此外,在决策系统会按照客户与资源的情况进行一个最佳的匹配,确保延迟、成功率、稳定性等均得到保障。

总而言之,阿里云基于数据、算法和平台,打造的一套完整的流量控制体系,可以实现从入口流量的客户场景转换,到资源池、逻辑资源、物理资源、通道、网关连接等全链路的自动化匹配转换,实现全生命周期闭环管理。

从一个具体场景来看,从入口流量开始,假设一个客户批量请求了100万短信,流量控制体系第一道先把客户的请求按照场景先做一层缓冲控制。转换完以后,结合实际的资源情况做了一层供需关系的一个匹配和控制。最终我们分发到单个连接的QPS的时候,从客户的入口流量来说,瞬间请求可能达到10万QPS,而真正分发到单连接的时候就变成非常低了,对于运营商来说,他的系统也是非常稳定的。所以也不会因为客户入口流量冲击导致出口流量不稳定,以此来保证无论客户使用场景多复杂,最终的SLA和请求耗时、延迟都能满足客户需求。

如何保证平台运行稳定?

在企业生产过程中,平台运行的稳定性是重中之重。“在稳定性上, “1、5、10”是我们始终追求的目标,1分钟发现,5分钟定位,10分钟恢复。”在系统的稳定性和高可靠上主要是围绕4个方向展开。

屏幕快照 2020-12-22 下午4.55.58.png

第一是在全链路的容灾体系建设,当前整体链路包括对于第三方的依赖完整支持了双机房、双活高可用体系的建设。在整个链路上通过心跳等实时探测机制,在应用、机器、机房维度出现故障是具备分钟级别隔离的能力。基于阿里本身沉淀的故障演练机制,会通过定期、突袭的演练方式,发现问题逐步迭代完善、演进平台的技术架构。

第二是在统一的接入和网关的接入层面,采用了多region的策略,就近边缘部署,降低接入成本,降低数据在物理网络链路传输过程中的时延,保障通话质量。同时,跨region的容灾体系可以在当某个region出故障的时候,能够切换到另外一个region进行服务,进一步提升服务的稳定性。

第三是主要在网关层面,通过不同的接入方式,以及多维度降级、逃生的容灾策略,基于客户特性、产品特性和资源特性做了不同维度的降级和切换策略来保障极端情况下的业务持续可用。

第四是在整个链路层面进行监测以及分级告警,针对核心业务和核心链路提供7x24小时运维保障,针对系统运行过程中出现的告警定义了p1-p4的分级,对不同级别的告警我们采用了多种的触达方式,如钉钉消息、短信、电话形式进行不同配置的触达,通过告警的升级和触达方式的升级尽可能保证在最短的时间内发现问题、处理问题,恢复线上的生产。

后续更多产品、技术和活动信息,可以进入云通信官方交流群进行了解:


点击观看直播回放:https://yqh.aliyun.com/live/detail/21594

点击进入秒懂云通信,获取更多视频:
https://yqh.aliyun.com/live/cloudcommunication-videos

原文链接:https://developer.aliyun.com/article/780331?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
已标记关键词 清除标记