最厉害的黑客，只要一句话——论新浪微博架构

最新推荐文章于 2022-10-29 10:24:09 发布

lujie_1996

最新推荐文章于 2022-10-29 10:24:09 发布

阅读量988

点赞数

分类专栏： Back End 文章标签：新浪微博黑客宕机服务器架构

本文链接：https://blog.csdn.net/lujie_1996/article/details/78183908

版权

Back End 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

事件描述

昨天中午，新浪微博出现宕机，运维人员的国庆小长假就这样提前结束了。微博客服发消息称：页面无法刷新、评论无法显示，客户端出现了大面积瘫痪。作为一名程序员，你可能并不关心又是某某某发生了什么事，但是服务器宕机又是怎么一回事呢，谁又是最厉害的黑客？

我们来看一下微博数据助手的分析，截止至昨天14:50，鹿晗的一条微博覆盖了8.4亿人次，评论达98万，同时关晓彤也发布了微博，评论达72万。

国庆收假之时，很多粉丝和路人都在返程路上刷微博，会造成了巨大的访问量。因此对于突发性事件，微博无法有效预警，最终官方紧急扩容了1,000台服务器才得以缓解，对云服务提供商也是巨大的压力。

个人分析

1. 如此高的并发、访问和I/O全部压到DB服务器上，对于路由器上的大量流量有成熟的方案，大量的读操作也可以使用Redis和Memcached缓存，而大量的写操作是必须在发出之后立即响应的（比如你回复了某人的评论，某人就会收到提示）。又因为是在假期，运维人员可能很多都放假了，而且微博不同于阿里的双十一可以提前准备和演练；

2. 异步处理，意思是当用户发表消息成功了，就提示成功，而后台的消息队列则慢慢地完成，可以提升程序的运行效率，但容易造成冲突和数据脏读。当负载不大的时候，1秒之内就处理完了，用户感觉不出来，当请求量上去之后，服务器可能暂时应付不过来，要过几秒钟才会响应，这就是“卡了”的感觉，但是如果等待30秒以上都没有应答，浏览器就显示无法访问。

3. 微博需要处理消息推送，微博会将新消息推送给活跃的粉丝，而这些粉丝（可能是机器人）又会转发，由此队列里的消息发不完了，服务器开始丢弃部分请求，当TCP协议栈也满了，那么服务器的网络就连不上了，如果继续加大请求，操作系统和硬件就有可能会崩盘；

4. 自我恢复功能失效了？自我恢复功能有个临界点，当在此临界点之前时，系统可以快速恢复；而过了临界点，服务器的CPU和内存资源耗尽，服务器累坏了，就会如滚雪球一般一条路走到黑。而且服务器和人不同，人说加班就加班，说拼命就拼命，可以连轴转哈哈，但机器它可不会；

5. 自动扩容和缩容算法也失效了？算法不是万能的，当流量升高了，自动扩容下单几台、几十台服务器是合适的，但对于一千台服务器它也不敢这样做。假如是因为系统的bug造成流量飙升，那损失就大了（根据阿里云ECS，1核2GB服务器+10Mbps带宽= 6.95元/台/4小时，一千台使用4小时就是6,950元）。

可见，微博没有对最坏的情况做好预计，也没有经过良好的压力测试，导致自取灭亡。

总结：偶像的力量是无穷的，堪比黑客Web攻击。