我今天的演讲主要包括三个部分:消息平台产生的背景,它的整体架构和系统重点,以及我们遇到并解决了哪些问题。
消息平台产生的背景
消息平台产生的背景是基于58核心的业务——58速运,58速运的业务是做最便捷的同城的货运。之前一个速运系统出现问题时,GPS上报跟滴滴的业务比较相近,区别在于滴滴是运人,我们这边是运货。这时存在着一些问题,由于GPS上报比较频繁,系统压力比较大。此外,我们向多个司机推送订单的时候,对于系统的关注性能比较弱,前期采用HTTP的方式进行消息推送,可能导致可用性和消息的到达有问题。因此我们开发了消息平台,目的就是解决系统的稳定性等性能问题,为业务部门减少压力。
系统的整体架构
所有系统设计的话,都是基于某个业务场景的,这里简单介绍一下速运的业务场景。主要包括两端,一个是APP端,可能是用户使用或者是客户的司机,对于司机端知道司机处于哪个位置,会有GPS上报。另外用户下单,对应也是APP操作的。另一个是司机端,我们将用户的订单从APP-server这边推送给附近一批司机的时候,会有司机抢单的流程,把订单消息推送到各个司机端。当然还有其他实时的消息,因为作为一个通用的消息平台,不仅仅服务速运这个业务,还有58到家的家政、丽人等其他业务。
基于上述的业务,我们做了如图1所示的架构设计,整体来说是比较简单的。
图1
APP端,用户或司机会有下单的流程,有两类消息:第一类消息从APP端发起,用户下单,最终将消息推送给APP-server,另外一个就是从APP-server往APP端走。
msg-gate负责整合百万连接,维护与APP端的海量tcp连接;建立安全的消息通道,消息加解密、消息解压缩、消息流量监控、黑白名单;消息投递,接收APP端投递过来的消息,推送app-server投递过来的消息给APP端。因为要得到实时,优化了没有采用现有业务的方式上报。这边对于gate就是百万链接的流量整合。另外一个它会有逻辑层,将逻辑层转换MQ,这是整体的流程。
一般像我们服务的话,因为哪一个司机和哪个客户对接都要通过消息平台进行发送,所以对于gate层是比较特殊的,是有状态的。另外有一个逻辑层,主要职责也比较简单,就是跟业务相关的,逻辑层最核心的东西就是必须把gate层这边的消息重组到APP上,就是gate和APP有怎样的关系,这是server往APP端的东西。逻辑层职责比较简单,一个就是业务处理,还有也是业务相关的逻辑。
系统重点
其实从整体来说,架构还是比较简单的,但最终实现并不是我们想象的那么简单,主要有两个方面的问题:协议设计和快速重连,里面可能会有很多细节。
协议设计
我们在进行协议设计时候,主要考虑扩展性、可调试性和异步处理。
首要是扩展性。我们可以想象一下,消息平台里面,可能会有哪些扩展的需求?第一类有各种报文,比如登录、APP业务、appserver推送、keepalive等。最终消息推送的话肯定是业务的消息,对于业务包数据的变更我们要做到可扩展。其实也很简单,对于报文的话,比如登陆的话是一个,发消息的是另外一个。另外我们消息传送的话,有几类消息,可能我是个请求消息,另外可能是发出请求之后别人会返回我一个消息,还有一个就是由APP推过来的,在网络上面只有读和写或者收发,但是并不确认这个消息到底属于哪一个类型,所以这边有一个标识。如图2所示。
图2
一般的话可能还有更复杂的业务,比如有好友、匿名登陆,基于这一类设计的话,可能还会有一个协议的命令,比如登陆有登陆的协议,或者好友有好友的,对应好友可能有一些子命令,比如查看好友信息。如果类似复杂的业务可以把这些消息包规范好,另外像匿名登陆可以用协议族方式,一个大的协议族可以有子命令。另外业务数据包的话,可以通过变长的包体,只要跟业务方约定好,我们是基于怎样训练化的机制就可以了,至于里边放怎样的数据,其实随便,所以就可以做到很好的扩展。
另外可调试性,因为消息的流转会有很多环节,APP端开始到gate,再到MQ等等,假设某个请求包处理失败,我们如何快速知道这个消息包已经流转到哪个步骤了?是APP端的问题,还是msg-gate的问题,还是msg-logic的问题,还是redis的问题?解决的方案比较简单,就给一个统一标识就可以了。如图3所示。
图3
还有一个异步化的支持。这种消息通道最重要的是解决通道问题,所有消息处理不能是同步的,必须是异步的,你发一个消息出去,ABC三个包,你收到XYZ三个包之后,你怎么知道它是对应的,就是对应关系的话我们怎么处理,就是加一个ID,如图4所示。
图4
你可以维持一个发送包的上下文队列,当你收到包之后你从对应找到上下文做到处理。异步化处理的话两点,第一点是要有队列,另外一个就是必须要有一个回调,基本是队列加回调,因为收到小型包之后回去怎么做不确定,一般是这两个可以解决。
快速重连
另外一个TCP的快速重连,连接之后只是说明我们可以收发包消息了,但是连接之前要做一些验证,比如是不是合法用户等。我们解决快速重连的方法就是射线保持,不会清掉就没必要重复创建了。由于无线网络特别不稳定,射线保持也会引入其他的问题。如果断开,射线还在这里的话有两类消息,一类消息从APP-server推送到APP端的时候,因为TCP已经断开了,对应的其实你是发不出去消息的,这种情况下怎么办。可能会导致往一群司机推送订单的时候,这些司机就断开了,推送会失败,现在的做法会把射线清掉。因为这个情况没法重建TCP链接,因为是从server端到APP端的。另外一类,APP端往app-server推送消息的时候,因为我们这边TCP连接之后肯定有一些机制保持连接,一种通过心跳,另外再发消息的时候,我会重新建立TCP连接,会出现一个问题,重建连接的时候,我发送连接请求的服务器的话,可能不是上一台,之前连了一台服务器,现在网络点开重连,选的是另外一台服务器,这个是有问题的,导致用户在两台上边登陆了,这个问题怎么解决。
第一个问题,我们其实不好再重建TCP连接,因为是APP-server到APP的推送,好的做法就是把这个射线清掉,因为我们维护了APP端到gate的连接,这个是需要做的。另外一个就是像这种APP端同时登陆两个gate的时候,首先第一步把上一个清掉,重新再建立新的TCP连接。这个东西会有问题就是说网络不稳定,出现APP端跟好几个接入层进行了连接,优化的方案就是会在APP端做一些处理,比如可以记录上一次我和哪一台服务器连接,下一次网络有连接的时候就走上一台的,这样就不会导致登陆两个服务器的情况。
以上是我对到家消息平台的介绍,希望能够对大家有所帮助。