在对互联网服务进行服务端性能测试时,主要关注两方面的性能指标:
业务指标:如吞吐量(QPS、TPS)、响应时间(RT)、并发数、业务成功率等
资源指标:如CPU、内存、Disk I/O、Network I/O等资源的消耗情况
本文主要介绍一些广泛适用的、基本的资源指标以及这些指标在Linux服务器的获取方式。
关于CPU资源,有三个重要概念是我们需要关注的:使用率、运行队列和上下文切换。
CPU使用率(CPU Utilization Percentages):有进程处于Running状态的时间/总时间。
性能测试指标中,CPU使用率通常用us + sy来计算,其可接受上限通常在70%~80%。另外需要注意的是,在测试过程中,如果sy的值长期大于25%,应该关注in(系统中断)和cs(上下文切换)的数值,并根据被测应用的实现逻辑来分析是否合理。
运行队列进程数(Processes on run queue):Running状态 + Waiting状态的进程数,展示了正在运行和等待CPU资源的任务数,可以看作CPU的工作清单,是判断CPU资源是否成为瓶颈的重要依据。vmstat通过r的值来体现:
r: 可运行进程数,包括正在运行(Running)和已就绪等待运行(Waiting)的。
如果r的值等于系统CPU总核数,则说明CPU已经满负荷。在负载测试中,其可接受上限通常不超过CPU核数的2倍。
上下文切换(Context Switches):简单来说,context指CPU寄存器和程序计数器在某时间点的内容,(进程)上下文切换即kernel挂起一个进程并将该进程此时