如何扩展大规模Web网站的性能？

ifeves

于 2015-07-02 21:40:56 发布

阅读量349

点赞数

本文链接：https://blog.csdn.net/ifeves/article/details/102607025

版权

Reduce Data广告服务网站如何扩展到每天300K QPS请求？分享经验如下：

为大规模设计，广告服务平台从一开始增长就很惊人，因此，系统开始就为大规模设计，系统为水平和垂直伸缩扩展。
选择CAP定理中的AP（可用性和分区容错性）二不是CA（一致性和可用性），因为广告拍卖与服务平台是追求低延迟和高性能，数据的高一致性不是非常关键。
没有锁定专门厂商软件或专利技术的限制使用，积极使用开源软件，开源软件已经达到非常成熟的程度。
基于Mechanical Sympathy（顺硬件之势而为）构建系统，一个软件的建立应该是基于理解硬件如何工作以及如何更好利用硬件。
云技术的限制使用，他们很早就决定对云技术的有限使用，因为a)EC2和计数部分往往非常昂贵；b)在对EC2早期的测试中发现网络抖动jitter、磁盘虚拟化等会增加延迟。
延迟总是存在，对付它而不是设法消除它。所有查找都应该发生在1ms以下。利用RocksDB和各种其他解决方案作为主要的缓存/嵌入式数据库。
使用SSD固态硬盘降低延迟。
没有虚拟化硬件，充分利用高配置硬件(256G内存和24核机器)并行化许多计算。
磁盘写操作，每N秒定时flush写入大块数据。
Nginx用于支持keep-alive连接，而Netty优化支持大型并发负载。
为了保证广告服务器中关键数据始终是立即可用(访问延迟以微秒计)，所有这些数据都是存储内存中库/数据结构中。
架构应该使用share nothing，当我们增减服务器时，系统应该是丝毫不受影响，眼睛都不会眨一下。
所有关键数据结果都需要复制。
保持每天的原始记录日志拷贝。
如果数据有点脏，系统发生数据不一致性，这一切也是正常。
消息系统应该是容错的，它们可以崩溃但是不会丢失数据。

下面是具体设施情况：

跨3个数据中心的40–50节点（primarily US and two nodes in Germany）
其中30台运行高计算（128–256G RAM, 24 cores, top of the line CPUS and where possible SSDs）
其余机器配置低一些， 32G RAM, Quadcore 机器
10G 私有网 + 10G 公网
小型 Cassandra, Hbase 和 Spark 集群

使用关键技术是：