一文看不懂方差和标准差
flyfish
以例子说明什么是均值(Mean),方差(Variance)和标准偏差((Standard Deviation)
测量狗的高度(毫米)
高度(在肩部)为:600mm,470mm,170mm,430mm和300mm。
找出均值(Mean),方差(Variance)和标准偏差((Standard Deviation)。
mean在就是average的意思表示平均水平
第一步是找到均值:
Mean
=
600
+
470
+
170
+
430
+
300
5
=
1970
5
=
394
\begin{aligned} \text { Mean } &=\frac{600+470+170+430+300}{5} \\ &=\frac{1970}{5} \\ &=394 \end{aligned}
Mean =5600+470+170+430+300=51970=394
平均高度是394毫米。 看绿色的线段,我们把它画在图表上。
现在我们计算每只狗与平均值的差(difference)
要计算方差,需要对每个差进行平方,然后对结果进行平均.
方差(Variance)
σ
2
=
20
6
2
+
7
6
2
+
(
−
224
)
2
+
3
6
2
+
(
−
94
)
2
5
=
42436
+
5776
+
50176
+
1296
+
8836
5
=
108520
5
=
21704
\begin{aligned} \sigma^{2} &=\frac{206^{2}+76^{2}+(-224)^{2}+36^{2}+(-94)^{2}}{5} \\ &=\frac{42436+5776+50176+1296+8836}{5} \\ &=\frac{108520}{5} \\ &=21704 \end{aligned}
σ2=52062+762+(−224)2+362+(−94)2=542436+5776+50176+1296+8836=5108520=21704
方差是21704
标准偏差=标准差
标准差就是方差的平方根
标准偏差(Standard Deviation)
σ
=
21704
=
147.32
…
\begin{aligned} \sigma &=\sqrt{21704} \\ &=147.32 \ldots \end{aligned}
σ=21704=147.32…
约等于147
我们在一个标准偏差(147毫米)范围内显示高度
因此,使用标准差,我们可以通过“标准”方式了解什么是正常的,什么是特大或超小。
结论是罗特韦尔犬是高大的狗,腊肠有点短。
标准差是衡量数字分布的一种方法
所以把上面的计算方法变成公式是
问题一:为什么是差的平方?
把差之后的数,直接加起来,行不行?
把差之后的数,算绝对值,再加起来,行不行?
假设有这样的两组4个数
第一组是
9
、
9
、
1
、
1
9、9、1、1
9、9、1、1
第二组是
12
、
6
、
−
1
、
3
12、6、-1、3
12、6、−1、3
计算第一组
均
值
=
(
9
+
9
+
1
+
1
)
/
4
=
5
均值 =( 9+9+1+1)/4=5
均值=(9+9+1+1)/4=5
计算各个数与均值差多少
9
−
5
=
4
9
−
5
=
4
1
−
5
=
(
−
4
)
1
−
5
=
(
−
4
)
\begin{array}{l} 9-5=4 \\ 9-5=4 \\ 1-5=(-4) \\ 1-5=(-4) \end{array}
9−5=49−5=41−5=(−4)1−5=(−4)
可视化看一下
直接加起来0
4
+
4
−
4
−
4
4
=
0
\frac{4+4-4-4}{4}=0
44+4−4−4=0
用绝对值的方法算是4
∣
4
∣
+
∣
4
∣
+
∣
−
4
∣
+
∣
−
4
∣
4
=
4
+
4
+
4
+
4
4
=
4
\frac{|4|+|4|+|-4|+|-4|}{4}=\frac{4+4+4+4}{4}=4
4∣4∣+∣4∣+∣−4∣+∣−4∣=44+4+4+4=4
用平方的方法算是4
计算第二组
(
12
+
6
+
(
−
1
)
+
3
)
/
4
=
5
(12+6+(-1)+3)/4=5
(12+6+(−1)+3)/4=5
计算各个数与均值差多少
12
−
5
=
7
6
−
5
=
1
−
1
−
5
=
(
−
6
)
3
−
5
=
(
−
2
)
\begin{array}{l} 12-5=7 \\ 6-5=1 \\ -1-5=(-6) \\ 3-5=(-2) \end{array}
12−5=76−5=1−1−5=(−6)3−5=(−2)
可视化看一下
直接加起来是0
用绝对值的方法算是4
∣
7
∣
+
∣
1
∣
+
∣
−
6
∣
+
∣
−
2
∣
4
=
7
+
1
+
6
+
2
4
=
4
\frac{|7|+|1|+|-6|+|-2|}{4}=\frac{7+1+6+2}{4}=4
4∣7∣+∣1∣+∣−6∣+∣−2∣=47+1+6+2=4
用平方的方法算是4.74
我们希望的是当差异分布得越广,标准差就越大。用平方算,这是其中一个理由。
教科书《概率论与数理统计》浙江大学第四版的答案是
E
{
∣
X
−
E
(
X
)
∣
}
E\{|X-E(X)|\}
E{∣X−E(X)∣}能度量随机变量与其均值
E
(
X
)
E(X)
E(X)的偏离程度。但由于上式带有绝对值,运算不方便,通常用量
E
{
[
X
−
E
(
X
)
]
2
}
E\left\{[X-E(X)]^{2}\right\}
E{[X−E(X)]2}来度量随机变量
X
X
X与其均值
E
(
X
)
E(X)
E(X)的偏离程度。
方差的定义
这样定义就有了
设
X
X
X是一个随机变量,若
E
{
[
X
−
E
(
X
)
]
2
}
E\left\{[X-E(X)]^{2}\right\}
E{[X−E(X)]2}存在,则称
E
{
[
X
−
E
(
X
)
]
2
}
E\left\{[X-E(X)]^{2}\right\}
E{[X−E(X)]2}为
X
X
X的方差,记为
D
(
X
)
D(X)
D(X)或Var(X)。
即
D
(
X
)
=
Var
(
X
)
=
E
{
[
X
−
E
(
X
)
]
2
}
D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\}
D(X)=Var(X)=E{[X−E(X)]2},而
σ
(
X
)
=
D
(
X
)
=
E
{
[
X
−
E
(
X
)
]
2
}
\sigma(X)=\sqrt{D(X)}=\sqrt{E\left\{[X-E(X)]^{2}\right\}}
σ(X)=D(X)=E{[X−E(X)]2}称为标准差或均方差。
他说的运算不方便是怎么回事呢?
人手工算还是计算机算,在什么情况下运算不方便?
看看其他人相关的回答真的很精彩
why-is-it-so-cool-to-square-numbers-in-terms-of-finding-the-standard-deviation
why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia
Revisiting a 90-year-old debate: the advantages of the mean deviation
方差这个词是怎么来的呢?
罗纳德·费雪(Ronald Fisher 1890-1962)
现代统计学与现代演化论的奠基者之一,最大似然估计就是他发明的。
第一次世界大战时期他也发表了许多与生物统计相关的论文,包括《孟德尔遗传假定下的亲戚之间的相关性》(The Correlation Between Relatives on the Supposition of Mendelian Inheritance)。这篇论文在1916年完成,并在1918年发表,它同时建立了以生物统计为基础的遗传学,以及著名的统计学分法变异数分析(analysis of variance,简写为ANOVA,也称方差分析)。方差一词就是从他的论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》 提出的。
标准差的公式有两个
总体标准差(Population Standard Deviation)和样本标准差(Sample Standard Deviation)
不一样的方差
如果这些数据只是样本呢,就是我们有20只狗,我们只测量了5只
公式就放生了变化
原来的公式叫总体标准差
现在公式要变了叫样本标准差 公式如下
看分母一个是N,一个是N-1,为什么是这样呢?
这可是高手云集要回答的问题
为什么样本方差(sample variance)的分母是 n-1?
如何理解统计学中自由度这个概念?
另一种证明
参考
https://www.mathsisfun.com/data/standard-deviation.html