简单理解方差
1 方差(Variance)
eg.
某个实验得到两组数据A和B,两组数据的平均值都为3.5,可以说这两组数据的离散程度相差不大吗?
Data A | DataB |
---|---|
1 | 3.5 |
2 | 3.5 |
3 | 3.5 |
4 | 3.5 |
5 | 3.5 |
6 | 3.5 |
Total=21 | Total=21 |
Average=3.5 | Average=3.5 |
用以下三个值,来比较两组数据的离散程度。
- 【用平均值对每个数据分别求差并加起来】的平均值
- 【用平均值对每个数据分别求差并以绝对值方式相加】的平均值
- 【用平均值对每个数据分别求差再平方相加】的平均值
1.1【用平均值对每个数据分别求差并加起来】的平均值
下表分别展示了平均值对数据求差,这个差的平均值DataA和DataB都为0.
Data A | 平均值的差 | Data B | 平均值的差 |
---|---|---|---|
1 | 2.5 | 3.5 | 0 |
2 | 1.5 | 3.5 | 0 |
3 | 0.5 | 3.5 | 0 |
4 | -0.5 | 3.5 | 0 |
5 | -1.5 | 3.5 | 0 |
6 | -2.5 | 3.5 | 0 |
Total=21 | Total=0 | Total=21 | Total=0 |
Average=3.5 | Average=0 | Average=3.5 | Average=0 |
这里分别算出的【平均值和各数据的差】,统计学里称之为【偏差】[Deviation]。因为【比平均值大的偏差的和】和【比平均值小的偏差的和】相互抵消掉了,所以偏差的和一般为0。因此,这种方法不能比较数据的离散程度。
1.2【用平均值对每个数据分别求差并以绝对值方式相加】的平均值
为了让比较的值再0以上,把平均值和各数据的差的绝对值相加进行比较。
Data A | 平均值差的绝对值 | Data B | 平均差的绝对值 |
---|---|---|---|
1 | 2.5 | 3.5 | 0 |
2 | 1.5 | 3.5 | 0 |
4 | 0.5 | 3.5 | 0 |
5 | 1.5 | 3.5 | 0 |
6 | 2.5 | 3.5 | 0 |
Total=21 | Total=9 | Total=21 | Total=0 |
Average=3.5 | Average=1.5 | Average=3.5 | Average=0 |
比较数据A和B的【平均值和各数据的差的绝对值的平均(偏差的绝对值的平均)】可以看出数据A为1.5比较大,因此我们可以知道Data A的离散程度更大。这个值称之为【平均偏差】(Mean deviation,Average deviation)。
1.3【用平均值对每个数据分别求差再平方相加】的平均值
接下来,将【各数据和平均值的差】进行平方并平均,因为对偏差进行了平方,所以它们的值肯定大于0.这个值称之为【方差】(Variance)
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
.
\sigma^2= \frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\bar x)^2\,.
σ2=n1i=1∑n(xi−xˉ)2.
按照如下的顺序求Data A和Data B的方差
- 求出各数据和平均值的差(偏差)
- 对偏差分别进行平方并求和
- 对(2)求和结果除以数据个数
Data A | 偏差 | 偏差的平方 |
---|---|---|
1 | 2.5 | 6.25 |
2 | 1.5 | 2.25 |
3 | 0.5 | 0.52 |
4 | -0.5 | 0.52 |
5 | -1.5 | 2.25 |
6 | -2.5 | 6.25 |
Total=21 | Total=0 | Total=17.5 |
Average=3.5 | - | Variance=17.5/6=2.9 |
Data B | 偏差 | 偏差的平方 |
---|---|---|
3.5 | 0 | 0 |
3.5 | 0 | 0 |
3.5 | 0 | 0 |
3.5 | 0 | 0 |
3.5 | 0 | 0 |
3.5 | 0 | 0 |
Total=21 | Total=0 | Total=17.5 |
Average=3.5 | - | Variance=17.5/6=0 |
从结果来看,Data A 和Data B的方差如下:
- Data A的方差: σ A 2 = 2.9 \sigma_A^2=2.9 σA2=2.9
- Data B的方差: σ B 2 = 0 \sigma_B^2=0 σB2=0
方差可以表示这组数据在平均值周围的离散程度大小。
方差越小,数据收敛在平均值附近,离散程度就小。
方差越大,数据对于平均值的离散程度也就越大。
因此比较两组数据的方差,我们可以知道Data A的数据比B 更分散。
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。