关于误差的分布
伽利略在1632年出版的著作《关于两个主要世界系统的对话——拖雷密和哥白尼》中提及这个问题。他用“观测误差”这个名称。即我们现在理解的随机误差。他提出以下几点:
1.所以观测值都有误差,其来源可归因于观测者、仪器工具以及观测条件。
2.观测误差对称地分布在0的两侧——按:这当然假定以排除系统误差的情况。
3.小误差出现得比大误差更频繁。
后来辛普森证明在概率意义下平均误差小于个别误差。即
P
(
∣
e
ˉ
∣
≤
k
)
≥
P
(
∣
e
1
∣
≤
k
)
,
k
>
=
0.
P(|\bar{e}|\leq k)\geq P(|e_{1}|\leq k), k>=0.
P(∣eˉ∣≤k)≥P(∣e1∣≤k),k>=0.
辛普森只用一种特殊的误差证明了上述结果。
拉普拉斯早期工作
拉普拉斯假定的误差密度与哥白尼思想一样:
f
(
x
)
=
f
(
−
x
)
f(x)=f(-x)
f(x)=f(−x);
f(x)在
x
≥
0
x\geq 0
x≥0处增加时,f(x)下降;
同时他作出如下推理:
由于x趋近无穷时,f(x)趋近于0,随着x的增加曲线f(x)愈来愈平缓。另一方面f(x)本身也在下降,拉普拉斯假定
−
f
(
x
)
′
=
m
f
(
x
)
,
x
≥
0
-f(x)^{'}=mf(x),x\geq 0
−f(x)′=mf(x),x≥0
上述方程解得
f
(
x
)
=
c
e
−
m
x
,
c
≥
0
f(x)=ce^{-mx},c\geq 0
f(x)=ce−mx,c≥0。又由于概率和密度为1,所以
f
(
x
)
=
m
2
e
−
m
∣
x
∣
,
−
∞
<
x
<
∞
f(x)=\frac{m}{2}e^{-m|x|},-\infty <x<\infty
f(x)=2me−m∣x∣,−∞<x<∞ (1)。
拉普拉斯从均概原则和绝对平均误差最小的原则(事实上属于同一原则)出发得出了n=3的情况。
高斯推导出误差正态分布
1809年,高斯在其《绕日本天体运动的理论》的末尾,他写了一节有关数据结合的问题,实际就是误差分布的确定问题。高斯的两项创新的想法帮助了问题的解决。
设真值为
θ
\theta
θ,n个独立测量值为
X
1
,
.
.
.
,
X
n
X_{1},...,X_{n}
X1,...,Xn。高斯把后者的概率取为:
L
(
θ
)
=
L
(
θ
;
X
1
,
.
.
.
X
n
)
=
f
(
X
1
−
θ
)
.
.
.
f
(
X
n
−
θ
)
L(\theta)=L(\theta;X_{1},...X_{n})=f(X_{1}-\theta)...f(X_{n}-\theta)
L(θ)=L(θ;X1,...Xn)=f(X1−θ)...f(Xn−θ)
其中f为特定的误差密度函数。
高斯的第一点创新想法为
θ
\theta
θ的估计
θ
∧
\overset{\wedge}\theta
θ∧为:
L
(
θ
∧
)
=
max
θ
L
(
θ
)
L(\overset{\wedge}\theta)=\max\limits_{\theta}L(\theta)
L(θ∧)=θmaxL(θ)。
我们称上式为
θ
\theta
θ的最大似然估计。如果拉普拉斯采用了这个想法,在(1)的前提下可以得出:
θ
\theta
θ的估计是
X
1
,
.
.
.
,
X
n
X_{1},...,X_{n}
X1,...,Xn的中位数。
高斯的第二点创新想法为:
先承认算术平均为应取得估计,然后去找误差密度函数f以迎合这一点。得出只有在
N
(
0
,
h
)
N(0,h)
N(0,h)的概率密度下才成立。
注意由正态分布可以推出最小二乘,所有这有点自圆其说。
拉普拉斯中心极限定理与正态分布
拉普拉斯得到高斯的结果后结合他的中心极限定理:
P
d
∼
1
2
π
∫
−
2
d
N
2
d
N
e
−
x
2
2
d
x
(
2
)
P_{d}\sim\frac{1}{\sqrt{2\pi}}\int_{-\frac{2d}{\sqrt{N}}}^{\frac{2d}{\sqrt{N}}} e^{-\frac{x^2}{2}}\, dx (2)
Pd∼2π1∫−N2dN2de−2x2dx(2)
,这里d可取
c
N
c\sqrt{N}
cN。得出误差应该是高斯分布。
‘’元误差学说‘’:误差由大量的,由种种原因产生的元误差叠加而成。后来海根提出元误差独立同分布,只取2个值 − a -a −a和 + a +a +a,其概率都为 1 2 \frac{1}{2} 21:
以下为本文作者的想法:
二项分布的极限是正态分布,但当n无穷时,相当于均值在无穷远处的正态分布,n越大,概率密度函数越窄。这也证明了n无穷大时,概率密度函数为一条直线。当误差取2个值
−
a
-a
−a和
+
a
+a
+a,而不是0,1时,首先将均值拉倒了0点,而且不同点的概率密度的比例关系不会随n的增大而趋于0,所以概率密度函数不为一条直线,而是将他拉宽成正态分布。
《数理统计学简史》的概率部分就此结束,后面都是统计学部分。概率是客观规律,而统计是对规律的应用。
此系列读书笔记就此完结。