本文主要对机器学习中的高斯分布进行总结:
- 第一章先总结一元高斯分布和多元高斯分布的概率密度函数;
- 第二章以一元高斯分布为例,通过极大似然估计推导一元高斯分布中均值和方差的求法,并验证均值是无偏估计,而方差是有偏估计(相对真实值偏小);
- 第三章主要对多元高斯分布的二次型部分进行介绍,并通过吴恩达课程中二元高斯分布的图像,体验一下均值和协方差矩阵对分布图像的影响,最后点明高斯分布在实际应用中的两个问题和解决方法;
- 第四章主要推导在已知联合分布的情况下,如何求解边缘分布和条件分布;
- 第五章主要推导线性高斯系统中相关分布的求解,可用于卡尔曼滤波的推导等。
一、高斯分布的概率密度函数
二、一元高斯分布的极大似然估计
2.1 μ M L E , σ M L E \mu_{MLE},\sigma_{MLE} μMLE,σMLE 的求解
2.2 验证 μ M L E , σ M L E \mu_{MLE},\sigma_{MLE} μMLE,σMLE 的无偏性
实际上,通过极大似然估计得到的 μ M L E \mu_{MLE} μMLE 是无偏估计,而 σ M L E \sigma_{MLE} σMLE 是相对真实方差偏小的有偏估计,原因如下:
三、多元高斯分布
在推导过程中,我们做以下的规定:
3.1 马氏距离
多元高斯分布中 ( x − μ ) T Σ − 1 ( x − μ ) (x-\mu)^T\Sigma^{-1}(x-\mu) (x−μ)TΣ−1(x−μ) 部分其实是一个马氏距离,其值是一个数。当 Σ − 1 \Sigma^{-1} Σ−1 是一个单位矩阵时,马氏距离即为欧式距离:
3.2 ( x − μ ) T Σ − 1 ( x − μ ) (x-\mu)^T\Sigma^{-1}(x-\mu) (x−μ)TΣ−1(x−μ) 的求解
特别地,令 p = 2,我们来看一下二元高斯分布的图像情况,并通过几个图来了解一下均值和协方差矩阵对图像分布的影响:
3.3 实际应用过程的问题
- 实际应用中,协方差矩阵 Σ \Sigma Σ 有 p ( p + 1 ) 2 \frac{p(p+1)}{2} 2p(p+1) 个自由参数,复杂度为 O ( p 2 ) O(p^2) O(p2),因此在高维时常常假设 Σ \Sigma Σ 为对角阵
- 单个高斯分布的拟合能力是有限的,因此后续引入了高斯混合模型等模型
四、联合分布 -> 边缘分布 + 条件分布
4.1 数据说明
4.2 关键推论
在后面的推导中,我们会经常用到下面这个推理,此处证明略:
4.3 求解边缘分布 P ( x a ) P(x_a) P(xa)
4.4 求解条件分布 P ( x b ∣ x a ) P(x_b|x_a) P(xb∣xa)
使用配方法也可以推导出条件分布 P ( x b ∣ x a ) P(x_b|x_a) P(xb∣xa),但在这里我们使用巧妙且比较简单的构造法进行推导:
五、线性高斯系统
5.1 问题介绍
5.2 求解 P ( y ) P(y) P(y)
5.3 求解 P ( x ∣ y ) P(x|y) P(x∣y)
六、参考资料
-
哔哩哔哩白板推导系列视频