变异性(也叫散步或离散度)可被看作是对不同数值之间的差异性的测量。


如果把变异性看作是每个数值与特定值的差异程度可能更精确。那么你认为哪个“数值”可能被作为那个特定值呢?通常情况下这个特定值就是均值。因此,变异性成为测量数据组中每一个数值与均值的差异性的数量。


变异性的三种量数通常用于反映一组数据的变异性、散布或者离散度。这三种量数就是极差、标准差和方差。

我们最初正常的想法可能是计算数据组的均值,接着用均值减去每一个数值。然后计算这些距离的平均数。但实际上这并不管用,举个例子看看

数组:5,8,5,4,6,7,8,8,3,6

这个数组的均值是6,那么按照我们的想法用均值减去每一个值(-1+2-1-2+0+1+2+2-3+0)结果为0

其实这种计算方法的大多数结果都为零,因此我们要找到一个方法,消除负号,使结果不为零。


计算极差:

极差是对变异性最笼统的测量。极差可让你了解数值之间彼此差异的程度。极差是通过数据分布中的最大值减去最小值来计算。

一般来说,极差的计算公式如下: r = h - l

其中,r 是极差,h是数据集中的最大值,l是数据集中的最小值。


计算标准差:

最常用到的变异性量数是标准差。

标准差(缩写为s或SD)表示一个数据组中变异性的平均数量。实际的含义是与均值的平均距离。

标准差越大,每一个数据点与数据分布的均值的平均距离越大。

wKioL1c0FN6D67LKAABx9Ty-W_E856.jpg

其中:

s 是标准差

∑是西格玛,表示将其后所有数值累加求和

x是具体的数值

x上一条横线是所有数据的均值

n是样本规模


1)列出每一个数值。数值如何排序不重要

2)计算数据组的均值

3)每一个数值减去均值

4)计算每一个差值的平方。

5)计算所有与均值的偏差的平方的总和。

6)平方除以n - 1

7)计算平方根


  • 作为一个变异性的量数,标准差可以告诉我们数据组的每一个数值与均值的偏差平均数。

  • 标准差是作为偏离均值的平均距离计算的。因此,你首先需要计算作为集中趋势量数的均值。因此计算标准差时不需要在中位数和众数上浪费时间。

  • 标准差越大,数值分布越广,则数值之间的差异越大

  • 和均值一样,标准差对极值很敏感。当你计算样本的标准差时    ,若数据中存在极值,你就要在数据中报告这一点。

  • 如果s=0,数据组中就绝对没有变异性,而且在数值上完全一致,这种情况很少发生。


方差:

方差是标准差的平方。