其实要说明这个参数的含义非常简单,可能你早就知道他的含义,但我对这个参数一直有误解,而且还一直以为是“真理”,原于一次面试,被问到了这个问题,所以引起我这个参数的重新认识。
先说说我错误的认识:
我一直把90%Line 理解为: 90%用户的平均响应时间。
假如有10个数:
1、2、3、4、5、6、7、8、9、23
我会从这一组数中剔除掉10%的“另类”,也就是剔除 23 ,因为如果把23计算进去求平均值,会有很大误差。可能大部分(90%)用户的响应感知那么差。
如果计算所有用户的平均响应时间为:
(1+2+3+4+5+6+7+8+9+23)/10=6.8 以秒单位的话,就是用户平均响应时间为6.8秒。
去掉%10的另类(23)再来计算平均响应时间:
(1+2+3+4+5+6+7+8+9)/9=5 以秒为单位,那么90%用户的平均响应时间是5秒。
那么,假如是下面的两组数呢:
1、2、3、4、5、6、7、8、9、10
5、5、5、5、5、6、6、6、6、6
我求90%的平均响应时间,应该去哪个数?好像没有太突出的“另类”数。
为什么会产生这个错误认识,因为看到不少资料(非官网)对“90%Line”解释为:90% 用户的响应时间
90% Line 参数正确的含义:
虽然,我的上面理解有一定的道理,显然它是错误的。那看看JMeter 官网是怎么说的?
90% Line - 90% of the samples took no more than this time. The remaining samples at least as long as this.
“ 90% 的样品没有超过这个时间,剩余的样品至少只要这个。”(拿google翻译的)
没太理解是什么意思,于是,点击详细解释。
90% Line (90 th Percentile) is the value below which 90% of the samples fall. The remaining samples too at least as long as the value. This is a standard statistical measure. See, for example: Percentile entry at Wikipedia.
英语太差,还是没理解到底啥意思,不过最后提示我,用维基百科查一下什么是百分位数。
百分位数:
统计学术语,如果将一组数据从大到小排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列如,处于p%位置的值称第p百分位数。
中位数是第50百分位数。
第25百分位数又称第一个四分位数(First Quartile),用Q1表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。若求得第p百分位数为小数,可完整为整数。
分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下。
第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。
高等院校的入学考试成绩经常以百分位数的形式报告。比如,假设某个考生在入学考试中的语文部分的原始分数为54分。相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始分数54分恰好对应的是第70百分位数,我们就能知道大约70%的学生的考分比他低,而约30%的学生考分比他高。
其实,也就是最后这个考生分数的例子,让我豁然明白了。
假如:
有10个数:
1、2、3、4、5、6、7、8、9、10 按由大到小将其排列。
求它的第90%百分位,也就是第9个数刚好是9 ,那么他的90%Line 就是9 。
另一组数:
2、2.1、2.5、3、3.4、3.4、4、4、4、4、5、5、5、5.9、5.91、6.8、8、12、24、24.1 按由大到小将其排列。
求它的第90%百分位,第18个数是12 么,他的90%Line 就是12。
再来解释90%Line
一组数由小到大进行排列,找到他的第90%个数(假如是12),那么这个数组中有90%的数将小于等于12 。
用在性能测试的响应时间也将非常有意义,也就是90%请求响应时间不会超过12 秒。