大型网站架构：高性能

最新推荐文章于 2023-10-06 22:43:23 发布

远古大猛犸

最新推荐文章于 2023-10-06 22:43:23 发布

阅读量140

点赞数

分类专栏：概念及架构

原文链接：https://ningg.top/large-scale-web-app-tech-1/

版权

概念及架构专栏收录该内容

25 篇文章 3 订阅

订阅专栏

1. 概要

说明：此次分享，整理有独立的 keynote.

目标：高性能的网站，要求响应时间短、支持高并发。

几个问题：

指标：衡量网站性能的指标，有哪些？牛不牛逼，不能听你瞎说，总得有个衡量标准，谁的高，谁在这方面就牛逼
监控：如何收集指标信息？
改进：不同指标的改进措施和原理？

2. 指标

2.1. 不同人员的指标

不同人，不同视角，关注的网站高性能指标不同：

用户：用户感觉到的，网站响应速度
1. 网站响应时间：
  1. 服务器处理时间
  2. 网络传输时间
  3. 浏览器 HTML 渲染时间
开发人员：
1. 请求处理时间：
  1. 思考：端到端的延时？不仅仅是服务器的处理时间，此时，需要前端页面中观察请求的响应时间。
2. 系统吞吐量
  1. 思考：什么是吞吐量？跟并发量有什么关系？QPS？TPS？
3. 高并发处理能力
  1. QPS 的意义？高并发，就是 QPS? 1s ＝ 1000ms，可能包含好多批次的处理。
运维人员：
1. 基础设施：资源利用率
  1. OS 层级
  2. 运营商的网络利用率
  3. 硬件配置
  4. 数据中心网络架构

转存失败重新上传取消

2.2. 通用指标

排除不可控的指标，在研发和运维角度，有一些通用的指标：

响应时间：服务器侧，收到请求到返回响应的时间
并发数
吞吐量
性能计数器：OS 层级的统计信息，CPU、Mem、网络、磁盘等

按照层级，分类如下：

App 级：
- 响应时间
- 吞吐量
OS 级：
- 性能计数器

2.2.1. 响应时间

几个常见的时间：

CPU 执行时间？2 GHz，对应 0.5 ns，实际涉及到读取指令，一般在 us 量级
内存读取数据：1～n x 10 us
通过网络读取数据时间？0～1ms （跟距离和跳数相关）
机械磁盘读取数据：1～5 ms，7200 rpm （round per minute）
数据库索引方式，查询记录：2～10 ms

其他时间汇总：

转存失败重新上传取消

2.2.2. 并发数

并发数：同时处理请求的数据。简单的说，就是同时处理的线程数量。

2.2.3. 吞吐量

吞吐量：单位时间内处理的请求数量。

具体衡量指标：

TPS：每秒处理的事务数量
QPS：每秒处理的查询请求数量
HPS：每秒处理的 HTTP 请求数量

思考：

并发数 vs. 吞吐量？

Re：

随着「并发数」增加，系统「吞吐量」会上升
达到系统极限后，随着「并发数」增加，系统吞吐量会降低，最后系统资源耗尽，崩溃

转存失败重新上传取消

2.2.4. 性能计数器

性能计数器：描述硬件/OS 级别的数据指标，例如：系统负载、线程数、内存使用、CPU 使用、磁盘 IO 、网络 IO 等。

部分指标，简单解释：

系统负载：system load，（正在执行 + 排队执行的线程）/ CPU 核心数目，一般设置 0.3，0.5，0.7，1 几个指标，表示不同的状态。

3. 监控

3.1. 监控的实现

测量指标，常见的实现：

OS、JVM：性能计数器
- Ganglia、Zabbix、Falcon 等
App 级别：响应时间、吞吐量
- Spring AOP 定制
- Nginx 访问日志
- Web Server 访问日志

3.2. 测试

有了监控，就可以进行压力测试了。

压力测试：构造模拟场景，测试系统在不同压力下，响应时间、并发数、吞吐量、性能计数器等指标的表现。

测试方法：

不断增加请求数量
2 个请求之间，增加随机的等待时间
不均匀、突发式、间断性

测试，有一个大前提：做好指标监控。

4. 改进

4.1. Web 前端性能优化

从「浏览器」角度，可优化的地方：

减少页面中 HTTP 请求次数：css、js、image 的请求
1. 合并请求
2. 浏览器缓存：HTTP response 中 HTTP Header 中添加 Cache-Control 和 Expires 属性
减少请求的数据大小：
1. 压缩：服务器端压缩、浏览器端解压缩，需要 balance，因为压缩也需要时间，网络良好时，不建议压缩
2. Cookie 简化：不必要的数据，不添加到 Cookie 中
浏览器渲染机制：下载完 css 之后，才会去渲染
1. CSS 链接放在页面最前面
浏览器「就近获取」资源：
1. CDN 加速：请求图片、css、js等静态资源时，就近运营商和机房获取

4.2. Server 后端性能优化

从「服务器」角度，可优化的地方：

缓存：要保证数据一致性
1. 本地缓存：无法保证「数据一致性」
2. 分布式缓存：通过「主动失效缓存」，能保证「数据一致性」
消息队列：异步操作，及时响应
1. 异步操作带来的问题：无法 Fail-Fast，需要同步优化业务流程
集群：单台机器处理能力有限，扩充为集群
1. 反向代理：缓存 + 负载均衡
优化代码：
1. 多线程
2. 资源复用

转存失败重新上传取消

4.2.1. 缓存

衡量缓存的指标：缓存命中率。（命中率：从缓存请求数据的次数 / 从缓存读取到数据的次数）

合理使用缓存：

「一写多读」的数据访问模型
有明显的「热点数据」
恰当的「数据一致性」策略
缓存可用性的预期：高可用、低可用？
缓存预热
防止缓存击穿

分布式缓存，本质是「集群」，关键问题：

如何保证，同一个 key 放在同一个「服务器节点」？
如果「服务器节点」失效，如何保证不影响「其他服务器节点」的正常工作？
1. 正常工作：Client 将 KeyA 放到了 Node B 上，Node A 失效后，Client 仍然知道去 Node B 上，读取 KeyA 的缓存数据？
如果「服务器节点」新增了一个，如何保证不影响「其他服务器节点」的正常工作？
1. 正常工作：Client 将 KeyA 放到了 Node B 上，新增 Node C后，Client 仍然知道去 Node B 上，读取 KeyA 的缓存数据？

解决分布式缓存集群问题：一致性 Hash 算法