【机器学习】高斯分布为什么普遍和常用？

最新推荐文章于 2024-08-21 21:56:17 发布

artzers

最新推荐文章于 2024-08-21 21:56:17 发布

阅读量2w

点赞数 7

分类专栏：模式识别与机器学习杂谈文章标签：机器学习

本文链接：https://blog.csdn.net/lpsl1882/article/details/78906274

版权

模式识别与机器学习同时被 2 个专栏收录

46 篇文章 6 订阅

订阅专栏

杂谈

4 篇文章 0 订阅

订阅专栏

-###似然函数到高斯分布
为了得到精确值，我们需要进行多次测量，测量值大部分对称分布在真实值两侧附近。设测量期望为 $\theta$ ，误差为 $e_i=x_i-\theta$ ,期望为0，误差分布满足什么规律呢？假设该分布的最大似然估计就是平均值、期望，根据实验仪器知道一个大概的方差 $\sigma$ ，那么 $\theta = argmax L_{\theta}[f(e,\theta)]$ ，求导得到 $\sum{\frac{f'(x_i-\theta)}{f(x_i-\theta)}}=\sum{\frac{f'(e)}{f(e)}}=0$ ，同时 $\sum{x_i}=\theta$ ,满足这一条件的式子为 $\frac{f'(e_i)}{f(e_i)}=ce$ ，求解得到 $f(x)=Ae^{cx^2}=Ae^{c(x-\theta)^2}$ ，因此测量误差满足正太分布。这说明，高斯分布是似然函数最大时的最佳分布，不过这个推导令人疑惑的地方在于似然函数是 $ln$ ，自然会推导出科学常数，如果是用其他函数形式来表示似然函数，是不是就推导出别的分布而不是正态分布呢？我认为是可能的，不过似然函数用 $ln$ 是有其道理的，具体我暂时不明白。
上述推论并不能推出为什么高斯分布在现实世界如此普通如此重要。要证明高斯分布的普遍性，需要借助最大熵原理。

熵

熵：定义信息量函数I(x)，满足：
* $I(x)=\inf,p(x)=0$
* $I(x)=0, p(x)=1$
* $p(x)>p(y),I(x)<I(y)$
* $p(x)>=0,I(x)>=0$
* x,y~iid, $p(x,y)=p(x)p(y),I(x,y)=I(x)+I(y)$

满足上面的最简单的概率分布为 $I(x)=-c\ln p(x)$ ，对其求期望有 $F(x)=\sum{cp(x_i)\ln p(x_i)}$ ，不要c即为熵 $H(x)=\sum{p(x_i)\ln p(x_i)}$ ，表示系统信息量的多少。

最大熵与均匀分布

系统总是往熵最大的方向运动。均匀分布下有最大熵。证明:
1、熵函数是凸函数 $\delta H(x)=\ln x+1,H''(x)=1/x,x>0$ 。
2、jensen不等式： $E[f(X)] \geq f(EX)$ 。当 $\sum{p(x_i)}=1$ 时，有 $-\sum{p(x_i)\ln p(x_i)}= \sum{p(x_i)\ln 1/p(x_i)}\leq \ln \sum[p(x_i)/p(x_i)]=\ln k$ ，当p(x)全部相等时等号成立。
这说明未知系统处于均匀分布下是最稳定的状态。

最大熵到高斯分布

如果我们已知系统的均值 $\mu$ 和不为0的方差 $\sigma$ ，那么熵最大的分布是什么呢？这时候肯定不是均匀分布，因为有不为0的方差，那肯定是有起伏的而不是平坦的。假设这个系统是一个连续概率分布 $f(x)$ ，并且均值为 $\mu$ ，不为0的方差 $\sigma$ ，其最大熵模型为：

S = - \int \infty - \infty f (x) ln f (x) d x (1)

$S = - \int_{-\infty}^{\infty}{f(x)\ln{f(x)}}dx \tag{1}$

s . t . \int \infty - \infty f (x) d x = 1 (2)

$s.t. \int_{-\infty}^{\infty}{f(x)dx}=1 \tag{2}$

\int \infty - \infty x f (x) d x = μ (3)

$\int_{-\infty}^{\infty}{xf(x)dx}=\mu \tag{3}$

\int \infty - \infty (x - μ) 2 f (x) d x = σ 2 (4)

$\int_{-\infty}^{\infty}{(x-\mu)^2f(x)dx}=\sigma^2 \tag{4}$
我们的目标是求解上述模型在最值下

f(x) $f(x)$ 的形式，并且我们可以预先确定这个模型有最大值。针对这个最优化模型，我们引入拉格朗日乘子法，有三个乘子

α,β,γ $\alpha,\beta,\gamma$ ，得到最优化模型为：

S (f (x), x) = - \int \infty - \infty [f (x) ln f (x) + α f (x) + β x f (x) + γ (x - μ) 2 f (x)] d x + C

$S(f(x),x)=-\int_{-\infty}^{\infty}{[f(x)\ln{f(x)+\alpha f(x)}+\beta xf(x)+\gamma (x-\mu)^2f(x)]}dx+C$
C为与

μ,σ $\mu,\sigma$ 相关的常数，与最优化求解过程无关，故而可以无视。S是一个关于

f(x),x $f(x),x$ 的泛函，求解泛函极值的工具自然是欧拉拉格朗日EL方程，其通用形式为：

S = \int x 2 x 1 L (f, f', x) d x a r g m a x S (f (x), f' (x), x) \to \partial L \partial f - d d x \partial L \partial f ' = 0

$S=\int_{x1}^{x2}L(f,f',x)dx \\ argmax{S(f(x),f'(x),x)} \rightarrow \frac{\partial{L}}{\partial f}-\frac{d}{dx}\frac{\partial{L}}{\partial f'}=0$ 不过这里S没有

f′ $f'$ ，所以最后求解泛函极值的模型变为

\partial L \partial f = ln f (x) + 1 - α - β x - γ (x - μ) 2 = 0 f (x) = e α - 1 e γ [x - (μ - β 2 γ)] 2

$\frac{\partial{L}}{\partial f}= \ln{f(x)}+1-\alpha - \beta x - \gamma (x-\mu)^2 = 0 \\ f(x) = e^{\alpha-1}e^{\gamma[x-(\mu-\frac{\beta}{2\gamma})]^2}$ 设

y=x−(μ−β2γ),dx=dy $y=x-(\mu-\frac{\beta}{2\gamma}),dx=dy$ ，由(2)得到

\int f (y) d y = \int e α - 1 e γ y 2 d y = 1

$\int{f(y)dy}=\int{e^{\alpha-1}e^{\gamma y^2}dy}=1$ 其中拉格朗日乘子

γ<0 $\gamma<0$ 使得这个积分有值，由公式

∫e−x2dx=π‾‾√ $\int{e^{-x^2}dx}=\sqrt{\pi}$ 得到

eα−1π−γ‾‾‾√=1 $e^{\alpha-1}\sqrt{\frac{\pi}{-\gamma}}=1$ .
由（3）得到，

\int (y + μ - β 2 γ) f (y) d y = μ

$\int{(y+\mu-\frac{\beta}{2\gamma})f(y)dy}=\mu$

\to \int y f (y) d y = β 2 γ ， n o t i c e, \int y f (y) d y = C' \int \infty - \infty y e γ y 2 = 0 \neq μ

$\rightarrow \int{yf(y)dy}=\frac{\beta}{2\gamma}，notice, \int{yf(y)dy}=C'\int_{-\infty}^{\infty}{ye^{\gamma y^2}} = 0 \neq \mu$ 后面一个式子是一个对称的奇函数，故而积分为0，这里容易看走眼。显然

β=0,y=x−μ,f(x)=−γπ‾‾‾√∫eγ(x−μ)2=−γπ‾‾‾√∫eγy2 $\beta=0,y=x-\mu,f(x)=\sqrt{\frac{-\gamma}{\pi}}\int{e^{\gamma(x-\mu)^2}}=\sqrt{\frac{-\gamma}{\pi}}\int{e^{\gamma y^2}}$
由（4）得到，

\int y 2 f (y) d y = σ 2 y 2 γ e γ y 2 | \infty - \infty - 1 2 γ - γ π ‾ ‾ ‾ ‾ \sqrt \int e γ y 2 d y = 0 - 1 2 γ = σ 2 γ = - 1 2 σ 2

$\int{y^2f(y)dy}=\sigma^2 \\ \frac{y}{2\gamma}e^{\gamma y^2}|_{-\infty}^{\infty}-\frac{1}{2\gamma}\sqrt{\frac{-\gamma}{\pi}}\int{e^{\gamma y^2}dy}=0-\frac{1}{2\gamma}=\sigma^2 \\ \gamma=-\frac{1}{2\sigma^2}$
综上得到已知

μ,σ $\mu,\sigma$ 的情况下，最大熵的概率分布为