如何解读《微信技术总监谈架构:微信之道——大道至简》

[http://www.52im.net/thread-201-1-1.html]学习一下

一、前言


最近在朋友圈看到有人分享腾讯微信技术总监周颢的一个技术报告,题目是《 微信技术总监谈架构:微信之道——大道至简 》( 演讲全文整理 演讲PPT讲稿下载 ),我也转发了一下。然后就被本司妹子看到了,非让我解释一下。

无奈微信的技术人员出来交流的太少了,只能写下这篇浅显的文章,通俗的解释一下微信背后的技术力量。

二、敏捷


在微信的技术报告中,通篇演讲所说的内容,其实都是为了两个字服务:“敏捷”。首先,我们要先解释一下敏捷。

在软件领域,敏捷软件开发实际上已经是一种术语,它又称敏捷开发,是一种从1990年代开始逐渐引起广泛关注的一些新型软件开发方法,是一种应对快速变化的需求的一种软件开发能力。敏捷 (Agile)也是一股思潮, 它包括了好几种软件开发的方法论 (methodology); 这些方法论又是建立在许多业界证明行之有效的最佳实践方法 (best practices) 上面的,例如:Software Development Rhythms 、ASD/Adaptive Software Development、Scrum、XP Extreme Programming等等。敏捷开发最终的目的,都是使软件能够快速迭代和交付。

So,简单来说就是为了软件快速迭代和交付,微信的技术做了什么事情,是如何做的。

在报告中,有一段话的意思是这样的:微信的成功来源于产品决策的成功,为了给产品决策最大的自由度和能力,微信的技术允许发布前十分钟的需求变更。做到这个事情非常非常牛,我必须要解释一下它的难度。

一个人的精力是有限的也是容易出错的,所以,在传统软件开发流程中,规定了一系列的规范来保证软件能够不出错。一个需求的完整开发流程大致是这样的:需求提出,技术分析,开发,自测,模块测试,联调测试,灰度测试,完整发布。

即使已经做了这么多步的保证,所有故障的80%仍然是发布导致的。为了保证服务的稳定性——微信的及格线是99.95%——开发中的变更一般是很昂贵的,因为需要把已经走过的步骤再重走一遍。所以大部分软件开发对于开发中的需求变更都是非常忌讳的,对于开发人员来说也是如此,谁也不想辛苦完成的东西再重新来一遍,或者因为频繁的需求变更导致测试不完全而出现故障。放张漫画感受一下程序员的心情

如何解读《微信技术总监谈架构:微信之道——大道至简》_4202b62de3222386d633d3ecd165fca1_r.jpg 

对于微信来说,更是如此。我估计微信内部有上百个模块,几千台服务器,任意一个模块、程序出现问题都可能会影响到微信的正常服务。尤其是在发布前十分钟还允许变更,需要一套强大的技术、测试和监控系统才能支持如此的任性。

对比一下前东家(不能说名字,也算个大厂),固定每周发布两次,发布持续时间4个小时。例如,周二发布一次,那周二发布的所有需求在周一上午已经确定了;如果发布失败了,第二天继续发这个。我曾经见过有一个需求一周都没有发上去。

在如此困难的情况下,微信凭借了几个思路来做到如此敏捷,后面我来依次解释一下。

三、努力减少人为的错误


既然人的问题如此突出,那么,要想提高效率做到敏捷,一定要先从人的方面着手。
微信的这篇报告提出的思路是:大系统小做+基础组件。应该说,这是一个工业界普遍的解决思路。 

我们一般人看到的软件,例如微信,就是在自己手机上运行的一个程序,无所谓大小系统,所有的功能都集中在一起,集中在一个软件中,无需也不能拆分。但在这种服务类软件例如微信、微博等,还有一个更加庞大在后端服务器的程序。

第一,一般来说,后端服务的逻辑相对前端软件来说更复杂:

后端程序要做各种计算、验证和存储的功能。如果前端软件端的代码有几万行的话,后端服务的代码一般要有几十万或者上百万行。例如,简单的登录,在前端只不过发一个登录的请求到后端服务器,而服务器要做的事情呢,从数据库中取得你的用户名和密码验证信息,把请求过来的用户名加密密码(密码不能明文存储,要经过一些复杂的计算过程取得一个加密的东西)和数据库的进行验证;判断是否一个异常登录(还要从数据库取的最近的登录信息);判断是否过频繁登录(防止恶意服务器攻击);等这些都做完了,才能返回说登录成功了。

第二,服务器端程序要比前端软件层承载更多的请求和更大的压力:

还是以上一点说的登录举例,所有的那些操作,服务器端要在100ms之内处理完成;同时,这种登录请求每一秒都有几万或者十几万。至少现在,一台普通服务器是无法同时处理这么多请求的,这就表示后端程序要部署很多台机器才行,这也造成了更多的复杂性。

如此复杂的系统,一个人是万万驾驭不了的。那么,唯一的选择就是把复杂变成简单。

首先,针对逻辑复杂的特点,我们会把几十万行代码组成的系统进行拆分,拆分一般是依据功能性,例如:注册登录、消息逻辑、漂流瓶等等,然后把这些程序分别部署到不同的服务器上。

放一页报告的PPT:
如何解读《微信技术总监谈架构:微信之道——大道至简》_a72f4f05f45afd0ece8535fcfd38a915_r.jpg

这张图应该是微信服务器端的主要逻辑和部署结构,其中每一个机器的图都是一组(很多台)服务器。这样的好处很明显,当拆分后,一个人只需要了解其中某一个模块的程序即可,不再需要详细的了解其他东西是怎么运行的。

但是,逻辑的复杂性解决了,又出现了另外一个问题,就是远程调用的复杂度和稳定性问题。

定义一下远程调用(RPC):

In computer science, a remote procedure call (RPC) is an inter-process communication that allows a computer program to cause a subroutine or procedure to execute in another address space (commonly on another computer on a shared network) without the programmer explicitly coding the details for this remote interaction.


简单来说,要调用的程序在另外一台物理服务器上。

而有网络参与的情况下,可靠性要比单机调用低一个等级,为了弥补这个可靠性的降低,需要做很多异常情况处理,例如:网络断了、有一次调用非常慢,有一台服务器没有响应了等等。

我们前面又提到,微信只有几十上百个模块在同时运行,不能要求每一个模块都把这些复杂的东西都做一次,并且受限于经验的问题,每个人做的都会不一样会有遗漏,这个时候,远程服务框架这个基础组件就应运而生了。

在报告中的一页PPT,提到了两个基础组件:

如何解读《微信技术总监谈架构:微信之道——大道至简》_2e2a2d607eafc11bcc79a4bf7d65639d_r.jpg 

就是属于远程服务框架中的一部分,它能够让开发人员很简单的使用,10分钟即可写一个远程调用,并且各种错误都由框架处理了,只要很开心的关心我们的业务是如何运行的即可。Yes,开发快了好多倍。

当然,远程服务框架是一个很复杂和系统的工程,他至少应该关心4个方面:

  • 开发的简易型
  • 服务的分布式调用链及服务状态的跟踪统计
  • 服务的配置管理,包括服务发现、负载均衡和依赖管理
  • 服务之间的调度和生命周期管理

阿里巴巴公司曾经开源过一套远程服务框架:dubbo,摘一张它的程序整体设计图:

如何解读《微信技术总监谈架构:微信之道——大道至简》_5b19b50d9ef5315b39ff4a3c50ab8788_r.jpg

在报告中还提到一个很重要的基础组件,存储组件,它屏蔽了容灾扩容等复杂问题。

存储是如此重要,所有的内容最终都要落到存储上;存储是如此重要,大部分的操作最终都要从存储读数据。正因为存储的重要,所以它又显的非常脆弱,任何一点小的问题,一定会影响一大批用户。

在这种情况下,务必要进行减少存储的出错几率,并且让上层屏蔽这些处理,让开发人员专注于自己的模块,这种思想和前面说的远程调用框架思路是一致的。

在报告中,提到了4中容灾模型,前面两种分别是主备、双写,这个就不多说了,主要说下另外两种。

Set模型+双写:

如何解读《微信技术总监谈架构:微信之道——大道至简》_59f2073038176eae708a3ea4228138e4_r.jpg 

这里,报告里说的不慎明确,他说能够实现完全一致的备份副本,但是只能支持追加写以及需要外部索引,类似简化版的GoogleFS,主要存储图片和音频。这里我脑补一下,希望能猜中。

读到这些关键字,除了GoogleFS,我还想起了一个东西:bitcask模型。

如何解读《微信技术总监谈架构:微信之道——大道至简》_QQ20160402-8.png 

bitcask模型有一个外部索引,一般是放到内存中,保存了每一个key所在的文件位置和value长度及位置;在写入的时候,追加写入文件中,并更新索引内容,把位置指向新的磁盘位置。bitcask模型的好处是对于机械磁盘友好,写吞吐量大,数据持久化好不用担心crash后的数据丢失问题。这种模型就和报告所说的特点很像了,只不过把内存索引放到了外部一个单独的服务里面。当一个Set写入失败的时候,只需要写入另外一个,并把索引写入索引服务即可;读的时候,先读索引服务,然后去某一个Set中读取数据。因为每一个Set都做了主备模型,并不特别担心不可读。

四、及时发现错误


说了这么多,我们做了好多事情来尽量避免问题的产生,提高生产效率,但是遗憾的是,错误永远不可避免,这个时候,能够及时发现错误并解决它,影响尽量少的人就成了关键。微信给出的答案是:一套简单易用的监控系统+自动报警+灰度上线

对于这个,我其实没有啥好说的,都应该能很好的理解,任何软件服务的监控工作都是必不可少的。不过听视频上说的,微信5分钟即可部署好一个监控点并设置好报警阈值,完成监控和自动报警的工作,这个还是很牛的。

还有一项技术是灰度上线。顾名思义,灰度介于黑与白之间。在这里的意义就是,上线时只上线一部分,目的是用一部分用户检测代码的正确性,如果出现异常可以迅速的回到之前正确的代码上,实现影响尽量少的用户。

如何解读《微信技术总监谈架构:微信之道——大道至简》_6af0e1780de6a5651d476b0b38fd0123_r.jpg

从报告给出的截图看,微信可以实现上线时任意选择要上线的服务器。如果上线有问题,也只会影响到访问到问题服务器的用户。当一台服务器上线验证没有问题,可以选择多几台上线,最后再上线全部服务器。这样就减少了很多的风险,有更大的容错性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值