学习视频:正态分布推导
引入
1、1805年,勒让德《计算彗星轨道新方法》,首次采用最小二乘法;
2、1809年,高斯《天体运动理论》,处理轨迹的误差,探究误差发现误差分布服从正态分布,并且利用最小二乘法验证了分布;
推导
假设误差密度函数f(x),有n个独立观测值,x1…xn,, 真值x
L(x) = f(x1-x)f(x2-x)···f(xn-x) 似然函数
对似然函数取对数(极大似然估计知识点),
lnL(x) = i for 1 to n sum(ln(f(xi-x)))
l
n
L
(
x
)
=
∑
i
=
1
n
(
l
n
f
(
x
i
−
x
)
)
lnL(x) = \sum_{i=1}^n(ln f(x_i-x))
lnL(x)=∑i=1n(lnf(xi−x))
找最大值,求偏导=0的点
d
l
n
L
(
x
)
d
x
=
−
∑
i
=
1
n
f
′
(
x
i
−
x
)
f
(
x
i
−
x
)
=
0
\frac{d lnL(x)}{dx} = - \sum_{i=1}^n \frac{{f}'(x_i - x)}{f(x_i - x)} = 0
dxdlnL(x)=−∑i=1nf(xi−x)f′(xi−x)=0
记: g ( x ) = f ′ ( x ) f ( x ) g(x) = \frac{{f}'(x)}{f(x)} g(x)=f(x)f′(x)
则: ∑ i = 1 n g ( x i − x ) = 0 \sum_{i=1}^n g(x_i - x) = 0 ∑i=1ng(xi−x)=0
高斯巧妙的将真值
x
x
x 估计成
x
‾
=
x
1
+
x
2
+
.
.
.
+
x
n
n
\overline{x} = \frac{x_1 + x_2 + ... + x_n}{n}
x=nx1+x2+...+xn
带入得:
∑
i
=
1
n
g
(
x
i
−
x
‾
)
=
0
\sum_{i=1}^n g(x_i - \overline{x}) = 0
∑i=1ng(xi−x)=0
对
x
1
x_1
x1求偏导:
g
′
(
x
1
−
x
‾
)
(
1
−
1
n
)
+
g
′
(
x
2
−
x
‾
)
(
−
1
n
)
+
.
.
.
+
g
′
(
x
n
−
x
‾
)
(
−
1
n
)
=
0
{g}'(x_1 - \overline{x})(1 - \frac{1}{n})+{g}'(x_2 - \overline{x})(- \frac{1}{n})+...+{g}'(x_n - \overline{x})(- \frac{1}{n}) = 0
g′(x1−x)(1−n1)+g′(x2−x)(−n1)+...+g′(xn−x)(−n1)=0
对
x
2
x_2
x2求偏导:
g
′
(
x
1
−
x
‾
)
(
−
1
n
)
+
g
′
(
x
2
−
x
‾
)
(
1
−
1
n
)
+
.
.
.
+
g
′
(
x
n
−
x
‾
)
(
−
1
n
)
=
0
{g}'(x_1 - \overline{x})(- \frac{1}{n})+{g}'(x_2 - \overline{x})(1 - \frac{1}{n})+...+{g}'(x_n - \overline{x})(- \frac{1}{n}) = 0
g′(x1−x)(−n1)+g′(x2−x)(1−n1)+...+g′(xn−x)(−n1)=0
对
x
n
x_n
xn求偏导:
g
′
(
x
1
−
x
‾
)
(
−
1
n
)
+
g
′
(
x
2
−
x
‾
)
(
−
1
n
)
+
.
.
.
+
g
′
(
x
n
−
x
‾
)
(
1
−
1
n
)
=
0
{g}'(x_1 - \overline{x})(- \frac{1}{n})+{g}'(x_2 - \overline{x})(- \frac{1}{n})+...+{g}'(x_n - \overline{x})(1 - \frac{1}{n}) = 0
g′(x1−x)(−n1)+g′(x2−x)(−n1)+...+g′(xn−x)(1−n1)=0
有n个其次方程组,
利用齐次线性方程组解出,
X
=
c
∗
(
1...1
)
T
X = c * (1...1)^T
X=c∗(1...1)T,
即:
g
′
(
x
1
−
x
‾
)
=
g
′
(
x
2
−
x
‾
)
=
.
.
.
=
g
′
(
x
n
−
x
‾
)
=
C
{g}'(x_1 - \overline{x}) = {g}'(x_2 - \overline{x}) =... = {g}'(x_n - \overline{x}) = C
g′(x1−x)=g′(x2−x)=...=g′(xn−x)=C
则:
g
(
x
)
=
c
x
+
b
g(x) = cx+b
g(x)=cx+b
由于:
0
=
∑
i
=
1
n
g
(
x
i
−
x
‾
)
0 = \sum_{i=1}^n g(x_i - \overline{x})
0=∑i=1ng(xi−x)
0
=
∑
X
=
1
n
c
(
x
i
−
x
‾
)
+
n
b
0 = \sum_{X=1}^n c(x_i - \overline{x}) + nb
0=∑X=1nc(xi−x)+nb
而:
∑
X
=
1
n
(
x
i
−
x
‾
)
\sum_{X=1}^n (x_i - \overline{x})
∑X=1n(xi−x) 恰好 = 0,所以nb=0
⟶
\longrightarrow
⟶ b=0
然后:
g
(
x
)
=
c
x
g(x) = cx
g(x)=cx,
g
(
x
)
=
f
′
(
x
)
f
(
x
)
=
c
x
g(x) = \frac{{f}'(x)}{f(x)} = cx
g(x)=f(x)f′(x)=cx
(解出微分方程):
f
(
x
)
=
k
e
1
2
c
x
2
f(x) = ke^{\frac{1}{2}cx^2}
f(x)=ke21cx2
由密度函数:
∫
−
∞
+
∞
f
(
x
)
d
x
=
1
\int_{- \infty}^{+ \infty} f(x) dx = 1
∫−∞+∞f(x)dx=1
可知最终函数是收敛的,只有当c为负数时满足,
记
c
=
−
1
σ
2
c = - \frac{1}{\sigma^2}
c=−σ21
利用:
∫
−
∞
+
∞
e
−
x
2
d
x
=
π
\int_{-\infty }^{_+\infty } e^{-x^2}dx = \sqrt{\pi}
∫−∞+∞e−x2dx=π
得到:
k
=
1
2
π
σ
k = \frac{1}{\sqrt{2\pi} \sigma}
k=2πσ1
所以:
f
(
x
)
=
1
2
π
σ
e
−
x
2
2
σ
2
f(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{x^2}{2 \sigma^2}}
f(x)=2πσ1e−2σ2x2
此时期望(均值)为
0
0
0,方差为
σ
2
{\sigma}^2
σ2
正态分布-宋浩老师-课程节选
当
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
f(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}
f(x)=2πσ1e−2σ2(x−μ)2
同
f
(
x
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x) = \frac{1}{\sqrt{2\pi} \sigma} exp({-\frac{(x-\mu)^2}{2 \sigma^2}})
f(x)=2πσ1exp(−2σ2(x−μ)2)
此时期望(均值)为
μ
\mu
μ,方差为
σ
2
{\sigma}^2
σ2
创新:
背景,当时流行的是贝叶斯式推导,
而高斯,
1、直接构造L(x),
2、逆向思维 $ x = \overline{x}$
正态分布性质:
1、密度函数是唯一个经过傅里叶变化不变的
2、轻尾式
3、。。。
4、。。。
Gaussian Processes:
高斯分布-随机过程
1、高斯过程
2、机器学习-白板推导系列(二十)-高斯过程GP(Gaussian Process)
高斯过程是定义在练出域上的无限维高斯分布
高斯过程是定义在练出域上的无限个高斯随机变量所组成的随机过程
连续域:比如时间、空间
3、