对于数据框中的给定数据集,当我应用describe函数时,我得到的基本统计数据包括min,max,25%,50%等.
例如:
data_1 = pd.DataFrame({'One':[4,6,8,10]},columns=['One'])
data_1.describe()
输出是:
One
count 4.000000
mean 7.000000
std 2.581989
min 4.000000
25% 5.500000
50% 7.000000
75% 8.500000
max 10.000000
我的问题是:计算25%的数学公式是什么?
1)根据我所知,它是:
formula = percentile * n (n is number of values)
在这种情况下:
25/100 * 4 = 1
所以第一个位置是4号,但根据描述功能,它是5.5.
2)另一个例子说 – 如果你得到一个整数然后取4和6的平均值 – 这将是5 – 仍然与描述给出的5.5不匹配.
3)另一个教程说 – 你取两个数字之间的差异 – 乘以25%并加上较低的数字:
25/100 * (6-4) = 1/4*2 = 0.5
将其添加到较低的数字:4 0.5 = 4.5
仍然没有得到5.5.
有人可以澄清一下吗?