吞吐量即服务1s内可以处理的最大请求数,即最大可以支撑的QPS;请求耗时就更好理解了,即处理一次请求所需要耗费的时间。
明显这两个指标都是用来衡量服务的性能的,但两者之间的关系是什么呢?他们之间是否存在一些相互的作用呢?
降低QPS,会降低机器的负载压力,是否可以降低单次请求的耗时?
先来粗略看下请求耗时的组成:
1个请求用的时间
=CPU耗时+IO耗时(网络IO、内存IO)
=CPU排队耗时+CPU实际使用耗时+IO排队耗时+IO实际使用耗时
=资源的排队耗时+资源的实际使用耗时
显然CPU、IO的“实际使用耗时”是恒定的(只取决与代码和数据),而“排队耗时”是和机器负载有关的,即和QPS有关。所以在存在排队的情况时,降低机器的QPS,是可以降低单次请求的耗时。但降到一定程度上就没用了,降低负载无法降低“实际使用耗时”。
降低请求的平均耗时,是否就可以提高服务的吞吐量?
我们提到服务的吞吐量,其实提的都是平均请求耗时在x毫秒内时,服务可以支撑的最大QPS。如果降低上文提到的“实际耗时”,理论上可以为“排队耗时”留出更大的空间,即可以支撑更高的QPS/吞吐量。
题外话:一般说JVM的ZGC相较于G1,可以减少GC对请求耗时的影响,但会降低服务的吞吐量。前者是因为ZGC在算法设计上更低延迟,后者是因为ZGC对CPU的消耗更大。