原文链接
标准差是方差的平方根
1.方差公式:
m为x1,x2…xn数列的期望值(平均数)
s^2 = [(x1-m)^2 + (x2-m)^2 + … (xn-m)^2]/n
s即为标准差
s^2为方差。
2.实例:
Hive> select * from dim_row_num limit 10;
OK
0
1
2
3
4
5
6
7
8
9
hive> select stddev(row_num) from dim_row_num where row_num<10;
的结果: 2.8722813232690143
即:
m = 4.5
s^2 = [(4.5*4.5 +3.5*3.5+2.5*2.5+1.5*1.5+0.5*0.5+0.5*0.5+1.5*1.5+2.5*2.5+3.5*3.5+4.5*4.5)/10] – 方差
s = 2.8722813232690143 – 标准差
另外:
stddev_pop = stddev
stddev_samp :
s^2 = [(x1-m)^2 + (x2-m)^2 + … (xn-m)^2]/n-1
即:
m = 4.5
s^2 = [(4.5*4.5 +3.5*3.5+2.5*2.5+1.5*1.5+0.5*0.5+0.5*0.5+1.5*1.5+2.5*2.5+3.5*3.5+4.5*4.5)/9] – 方差
s = 3.0276503540974917 – 标准差
标准差:
stddev=2.8722813232690143
stddev_samp=3.0276503540974917
stddev_pop=2.8722813232690143
方差:
var_samp=stddev_samp^2=9.166666666666666
var_pop=stddev_pop^2=8.25
3.总结:
当我们需要真实的标准差 方差的时候 最好是使用: stddev stddev_pop var_pop
而只是需要得到少量数据 标准差 方差 的近似值 可以选用: stddev_samp var_samp