如何解读《微信技术总监谈架构：微信之道——大道至简》

最新推荐文章于 2024-08-22 08:09:32 发布

guojin08

最新推荐文章于 2024-08-22 08:09:32 发布

阅读量1w

点赞数 2

分类专栏： Server 架构

架构同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

Server

8 篇文章 1 订阅

订阅专栏

[http://www.52im.net/thread-201-1-1.html]学习一下

一、前言

最近在朋友圈看到有人分享腾讯微信技术总监周颢的一个技术报告，题目是《微信技术总监谈架构：微信之道——大道至简》（演讲全文整理、演讲PPT讲稿下载），我也转发了一下。然后就被本司妹子看到了，非让我解释一下。

无奈微信的技术人员出来交流的太少了，只能写下这篇浅显的文章，通俗的解释一下微信背后的技术力量。

二、敏捷

在微信的技术报告中，通篇演讲所说的内容，其实都是为了两个字服务：“敏捷”。首先，我们要先解释一下敏捷。

在软件领域，敏捷软件开发实际上已经是一种术语，它又称敏捷开发，是一种从1990年代开始逐渐引起广泛关注的一些新型软件开发方法，是一种应对快速变化的需求的一种软件开发能力。敏捷 (Agile)也是一股思潮, 它包括了好几种软件开发的方法论 (methodology); 这些方法论又是建立在许多业界证明行之有效的最佳实践方法 (best practices) 上面的，例如：Software Development Rhythms 、ASD/Adaptive Software Development、Scrum、XP Extreme Programming等等。敏捷开发最终的目的，都是使软件能够快速迭代和交付。

So，简单来说就是为了软件快速迭代和交付，微信的技术做了什么事情，是如何做的。

在报告中，有一段话的意思是这样的：微信的成功来源于产品决策的成功，为了给产品决策最大的自由度和能力，微信的技术允许发布前十分钟的需求变更。做到这个事情非常非常牛，我必须要解释一下它的难度。

一个人的精力是有限的也是容易出错的，所以，在传统软件开发流程中，规定了一系列的规范来保证软件能够不出错。一个需求的完整开发流程大致是这样的：需求提出，技术分析，开发，自测，模块测试，联调测试，灰度测试，完整发布。

即使已经做了这么多步的保证，所有故障的80%仍然是发布导致的。为了保证服务的稳定性——微信的及格线是99.95%——开发中的变更一般是很昂贵的，因为需要把已经走过的步骤再重走一遍。所以大部分软件开发对于开发中的需求变更都是非常忌讳的，对于开发人员来说也是如此，谁也不想辛苦完成的东西再重新来一遍，或者因为频繁的需求变更导致测试不完全而出现故障。放张漫画感受一下程序员的心情

如何解读《微信技术总监谈架构：微信之道——大道至简》_4202b62de3222386d633d3ecd165fca1_r.jpg

如何解读《微信技术总监谈架构：微信之道——大道至简》_4202b62de3222386d633d3ecd165fca1_r.jpg

对于微信来说，更是如此。我估计微信内部有上百个模块，几千台服务器，任意一个模块、程序出现问题都可能会影响到微信的正常服务。尤其是在发布前十分钟还允许变更，需要一套强大的技术、测试和监控系统才能支持如此的任性。

对比一下前东家（不能说名字，也算个大厂），固定每周发布两次，发布持续时间4个小时。例如，周二发布一次，那周二发布的所有需求在周一上午已经确定了；如果发布失败了，第二天继续发这个。我曾经见过有一个需求一周都没有发上去。

在如此困难的情况下，微信凭借了几个思路来做到如此敏捷，后面我来依次解释一下。

三、努力减少人为的错误

既然人的问题如此突出，那么，要想提高效率做到敏捷，一定要先从人的方面着手。
微信的这篇报告提出的思路是：大系统小做+基础组件。应该说，这是一个工业界普遍的解决思路。

我们一般人看到的软件，例如微信，就是在自己手机上运行的一个程序，无所谓大小系统，所有的功能都集中在一起，集中在一个软件中，无需也不能拆分。但在这种服务类软件例如微信、微博等，还有一个更加庞大在后端服务器的程序。

第一，一般来说，后端服务的逻辑相对前端软件来说更复杂：

后端程序要做各种计算、验证和存储的功能。如果前端软件端的代码有几万行的话，后端服务的代码一般要有几十万或者上百万行。例如，简单的登录，在前端只不过发一个登录的请求到后端服务器，而服务器要做的事情呢，从数据库中取得你的用户名和密码验证信息，把请求过来的用户名加密密码（密码不能明文存储，要经过一些复杂的计算过程取得一个加密的东西）和数据库的进行验证；判断是否一个异常登录（还要从数据库取的最近的登录信息）；判断是否过频繁登录（防止恶意服务器攻击）；等这些都做完了，才能返回说登录成功了。

第二，服务器端程序要比前端软件层承载更多的请求和更大的压力：

还是以上一点说的登录举例，所有的那些操作，服务器端要在100ms之内处理完成；同时，这种登录请求每一秒都有几万或者十几万。至少现在，一台普通服务器是无法同时处理这么多请求的，这就表示后端程序要部署很多台机器才行，这也造成了更多的复杂性。

如此复杂的系统，一个人是万万驾驭不了的。那么，唯一的选择就是把复杂变成简单。

首先，针对逻辑复杂的特点，我们会把几十万行代码组成的系统进行拆分，拆分一般是依据功能性，例如：注册登录、消息逻辑、漂流瓶等等，然后把这些程序分别部署到不同的服务器上。

放一页报告的PPT：
如何解读《微信技术总监谈架构：微信之道——大道至简》_a72f4f05f45afd0ece8535fcfd38a915_r.jpg

如何解读《微信技术总监谈架构：微信之道——大道至简》_a72f4f05f45afd0ece8535fcfd38a915_r.jpg

这张图应该是微信服务器端的主要逻辑和部署结构，其中每一个机器的图都是一组（很多台）服务器。这样的好处很明显，当拆分后，一个人只需要了解其中某一个模块的程序即可，不再需要详细的了解其他东西是怎么运行的。

但是，逻辑的复杂性解决了，又出现了另外一个问题，就是远程调用的复杂度和稳定性问题。

定义一下远程调用（RPC）：

In computer science, a remote procedure call (RPC) is an inter-process communication that allows a computer program to cause a subroutine or procedure to execute in another address space (commonly on another computer on a shared network) without the programmer explicitly coding the details for this remote interaction.

简单来说，要调用的程序在另外一台物理服务器上。

而有网络参与的情况下，可靠性要比单机调用低一个等级，为了弥补这个可靠性的降低，需要做很多异常情况处理，例如：网络断了、有一次调用非常慢，有一台服务器没有响应了等等。

我们前面又提到，微信只有几十上百个模块在同时运行，不能要求每一个模块都把这些复杂的东西都做一次，并且受限于经验的问题，每个人做的都会不一样会有遗漏，这个时候，远程服务框架这个基础组件就应运而生了。

在报告中的一页PPT，提到了两个基础组件：

如何解读《微信技术总监谈架构：微信之道——大道至简》_2e2a2d607eafc11bcc79a4bf7d65639d_r.jpg

如何解读《微信技术总监谈架构：微信之道——大道至简》_2e2a2d607eafc11bcc79a4bf7d65639d_r.jpg

就是属于远程服务框架中的一部分，它能够让开发人员很简单的使用，10分钟即可写一个远程调用，并且各种错误都由框架处理了，只要很开心的关心我们的业务是如何运行的即可。Yes，开发快了好多倍。

当然，远程服务框架是一个很复杂和系统的工程，他至少应该关心4个方面：

开发的简易型
服务的分布式调用链及服务状态的跟踪统计
服务的配置管理，包括服务发现、负载均衡和依赖管理
服务之间的调度和生命周期管理

阿里巴巴公司曾经开源过一套远程服务框架：dubbo，摘一张它的程序整体设计图:

如何解读《微信技术总监谈架构：微信之道——大道至简》_5b19b50d9ef5315b39ff4a3c50ab8788_r.jpg

在报告中还提到一个很重要的基础组件，存储组件，它屏蔽了容灾扩容等复杂问题。

存储是如此重要，所有的内容最终都要落到存储上；存储是如此重要，大部分的操作最终都要从存储读数据。正因为存储的重要，所以它又显的非常脆弱，任何一点小的问题，一定会影响一大批用户。

在这种情况下，务必要进行减少存储的出错几率，并且让上层屏蔽这些处理，让开发人员专注于自己的模块，这种思想和前面说的远程调用框架思路是一致的。

在报告中，提到了4中容灾模型，前面两种分别是主备、双写，这个就不多说了，主要说下另外两种。

Set模型+双写：

如何解读《微信技术总监谈架构：微信之道——大道至简》_59f2073038176eae708a3ea4228138e4_r.jpg

如何解读《微信技术总监谈架构：微信之道——大道至简》_59f2073038176eae708a3ea4228138e4_r.jpg

这里，报告里说的不慎明确，他说能够实现完全一致的备份副本，但是只能支持追加写以及需要外部索引，类似简化版的GoogleFS，主要存储图片和音频。这里我脑补一下，希望能猜中。

读到这些关键字，除了GoogleFS，我还想起了一个东西：bitcask模型。

如何解读《微信技术总监谈架构：微信之道——大道至简》_QQ20160402-8.png

如何解读《微信技术总监谈架构：微信之道——大道至简》_QQ20160402-8.png

bitcask模型有一个外部索引，一般是放到内存中，保存了每一个key所在的文件位置和value长度及位置；在写入的时候，追加写入文件中，并更新索引内容，把位置指向新的磁盘位置。bitcask模型的好处是对于机械磁盘友好,写吞吐量大，数据持久化好不用担心crash后的数据丢失问题。这种模型就和报告所说的特点很像了，只不过把内存索引放到了外部一个单独的服务里面。当一个Set写入失败的时候，只需要写入另外一个，并把索引写入索引服务即可；读的时候，先读索引服务，然后去某一个Set中读取数据。因为每一个Set都做了主备模型，并不特别担心不可读。

四、及时发现错误

说了这么多，我们做了好多事情来尽量避免问题的产生，提高生产效率，但是遗憾的是，错误永远不可避免，这个时候，能够及时发现错误并解决它，影响尽量少的人就成了关键。微信给出的答案是：一套简单易用的监控系统+自动报警+灰度上线

对于这个，我其实没有啥好说的，都应该能很好的理解，任何软件服务的监控工作都是必不可少的。不过听视频上说的，微信5分钟即可部署好一个监控点并设置好报警阈值，完成监控和自动报警的工作，这个还是很牛的。

还有一项技术是灰度上线。顾名思义，灰度介于黑与白之间。在这里的意义就是，上线时只上线一部分，目的是用一部分用户检测代码的正确性，如果出现异常可以迅速的回到之前正确的代码上，实现影响尽量少的用户。

如何解读《微信技术总监谈架构：微信之道——大道至简》_6af0e1780de6a5651d476b0b38fd0123_r.jpg