描述统计和数据分布特征,平均数只是一部分,另一部分就是变异性量数,或称离散量数。
变异性(variability):也叫散布或离散度,可看作是对不同数值之间差异性的测量。
我们先来看一看下面3组数据
第1组:1,3,3,7,6
第2组:3,4,5,4,4
第3组:4,4,4,4,4
3组数据的均值都为4
第1组数值相互之间的差异较大
第2组数值相互之间的差异较小
第3组数值相互之间没有差异
变异性用来描述数据分布的特征,并说明数据分布之间的差异。
变异性也有三种量数:极差、标准差、方差
极差(range):数据分布中最大值减去最小值
极差=最大值-最小值
极差是对变异性最笼统的测量,用它作为变异性的一般指标还好,但是不可以用于得出任何关于具体数值之间相互差别的结论,原因还是其太过于笼统。
标准差(standard diviation):表示一个数据组中变异性的平均数量,即与均值的平均距离。
如计算 1,2,3,4,5的标准差
先算出均值=3
X | 均值 | X与均值的差 | X与均值差的平方 |
1 | 3 | -2 | 4 |
2 | 3 | -1 | 1 |
3 | 3 | 0 | 0 |
4 | 3 | 1 | 1 |
5 | 3 | 2 | 4 |
合计 | 10 |
X与均值差的平方和/n-1 = 10/4 =2.5
计算2.5的平方根 = 1.5811 就是标准差
--------------------------------------------
小注:
- 为什么计算偏差的平方?为了消除负号
- 为什么除以n-1,而不是n?分母减小,会得到稍大的标准差,可看成是保守估计,学名无偏估计
方差(variance):即标准差的平方。
标准差与方差的区别:
从公式上可以很明显看出,方差是标准差的平方,其余一模一样。
那它们二者的区别就体现在,标准差是以最初的单位存在,而方差是以平方单位存在。
最后,我们来看如何衡量不同数据的离散程度。
如下面这两组数据,怎么评价它们之间的变异性?
第1组:1,2,3,4,5 [均值=3,标准差=1.5811]
第2组:10,20,30,40,50 [均值=30,标准差=15.811]
通常我们可以使用标准差来进行衡量,可是标准差计算的是绝对值,如上面两组数组,虽然我们看得出来它们变异程度很接近,但我们没法用标准差直接去评估这两组数值之间的变异差异。
有没有相对表示变异差异的计算方法呢?有
变异系数:又称“离散系数”。是用来描述变异程度的相对指标,通常指标准差与总体平均数之比,一般以百分数表示。
由于极差、平均差、标准差都是根据数值绝对值计算的,其大小不仅取决于数值之间变异的大小,而且与数值平均水平的高低有关。
要比较不同水平的数值之间的变异程度,就需要计算反映数值变动程度的相对指标,即离散系数。
离散系数小,说明变动程度小;反之,说明变动程度大。
如上面两组数据计算变异系数为:
第1组:1.5811/3 = 0.527
第2组:15.811/30=0.527
这样我们就可以说第一组数据跟第二组数据的变异程度相等。