转自 https://www.cnblogs.com/lvchaoshun/p/7115460.html
高斯分布被广泛应用于对机器人误差的建模。在这篇笔记中,我们将会:
介绍如何使用一元高斯分布、多元高斯分布和高斯混合模型对机器人误差进行建模。
介绍求解这些高斯分布的算法。
以小球检测这一实际应用来实践我们的模型和算法。
1. 一元高斯分布
在这一节我们将介绍如何使用一元高斯分布对机器人误差进行建模。
在进入正题之前,我们需要首先了解为什么学习高斯分布?什么使得高斯分布有效并且重要?为什么使用高斯分布对噪声和不确定性进行建模(而不是其他概率分布模型,比如均匀分布)?
高斯分布使得只需要两个参数就能确定一个连续的概率分布。这两个参数分别是均值和方差,这很简洁。这也使得高斯分布易于计算和推断。
高斯分布有一些较好的数学性质。例如,两个高斯分布的积还是高斯分布。这使得你在对高斯分布做运算的时候不需要考虑其他的概率分布。
理论上来说,根据中心极限定理,大量相互独立的随机变量,其均值的分布以高斯分布为极限。而噪声和不确定性就是包含大量相互独立的随机变量的数据,用高斯分布对它们进行建模是不二选择。
说了这么多,我们来举个栗子吧,怎样使用高斯分布来对一个目标颜色进行建模?
下图是足球机器人通过头顶摄像机拍摄到的照片。
显然,图片中有两种颜色的球,黄球和红球。我们设想这个足球机器人想检测图片中的黄球。对于人类来说,一眼就能分辨出黄球在哪,
但对一个机器人来说这并不简单。机器人读入的图片是一个一个像素的数值,它需要建立从像素的数值到“黄色”或者“红色”的映射。
不妨让我们来看看“黄球”里面的像素数值是怎样的。我们记录黄球的每个像素的色相值(Hue,HSV模型中表示色彩的基本属性,就是平常所说的颜色名称,如红色、黄色等),
然后画出每一个色相值出现次数的柱状图如右下。
我们可以看到,”黄色“这一种颜色可以有很多个色相值(换成RGB模型也是一样的),这就是我们所说的噪声或者不确定性。
从分布上来看,”黄色“的色相值以大约53为中心然后向两边扩散。为了记录“黄色”,一种方法是记录每一个“黄色”像素的色相值,然而这将十分消耗存储空间,确切来说,有多少像素就消耗多大的空间。
另一种简洁有效的方法是使用高斯分布。
让我们先来温故一下高斯分布的数学表达形式再返回来解释这个例子吧。
高斯分布的数学形式如下:
其中, x x 是变量,表示x的出现的概率, μ μ 是均值, σ σ 是标准差( σ2 σ 2 是方差)。 μ μ 和 σ σ 是之前我们提到的表示一个高斯分布的两个参数。
在我们上面的栗子中,假设我们已经完成了对黄色的高斯分布建模,x是一个采样像素的色相值,那么p(x)就表示该像素属于“黄色”的概率。
我们继续介绍高斯分布,为了更加直观地了解高斯分布长什么样子,我们把高斯分布画出来。下图是\mu=0,\sigma=1的情况下的高斯分布图(标准高斯分布)。
当均值变化而方差不变的时候,可以看作将图像进行了平移。
当均值不变,而标准差变化的时候,可以看作将图像进行了“挤”或“压”(方差越大越扁)。
总结来说, μ μ 决定了高斯分布的对称轴,\sigma决定了高斯分布的扩散程度。
让我们返回到小球检测的栗子。我们只使用一个高斯分布(即两个值)就可以近似地存储所有的“黄色”像素,如下图。
那么如何通过数据来求\mu和\sigma这两个参数呢?我们将在下一节中介绍最大似然估计方法求解一元高斯分布。
2. 求解一元高斯分布:最大似然估计
在这一节,我们将介绍使用最大似然估计(Maximum Likelihood Estimation,MLE)的方法来求解观测数据的一元高斯分布。
首先,我们引入似然函数(或者说似然,Likelihood)的概念。
似然指的是在给定模型参数的情况下观测值出现的概率。它被定义成了一个条件概率 p({xi}|μ,σ) p ( { x i } | μ , σ ) 。比如,在上一节的小球例子中, {xi} { x i } 表示所有“黄色”像素点的色相值,如果给定了高斯分布的 μ μ 和 σ σ ,我们就能算出 {xi} { x i } 出现的概率。
那么我们的问题就可以表述为,给定观测值{x_i},求\mu和\sigma,使得似然函数最大:
其中,
表示估计值。
这里,观测值{x_i}是所有的观测值的集合,我们假设这些观测值两两相互独立(在我们的小球检测栗子中也确实是这样的)。那么:
这里,N表示观测值集合的大小为N。那么我们的目标就变成了:
根据对数函数的单调性(x_1
而将 lnp(xi|μ,σ) ln p ( x i | μ , σ ) 带入高斯分布我们有:
那么我们的目标就变成了:
让我们给后面的目标函数做个记号,令
我们的目标就是使得 J(μ,σ) J ( μ , σ ) 最小,而函数 J(μ,σ) J ( μ , σ ) 取最小值时其关于 μ μ 的偏导数等于0:
求得:
将 μ=μ^ μ = μ ^ 带入函数 J(μ,σ) J ( μ , σ ) 得到函数 J′(σ) J ′ ( σ ) ,其取最小值时关于 σ σ 的导数等于0:
求得:
σ^2=1N∑Ni=1(xi−μ^)2 σ ^ 2 = 1 N ∑ i = 1 N ( x i − μ ^ ) 2
总结来说,最后的答案为:
μ^=1N∑Ni=1xi
μ
^
=
1
N
∑
i
=
1
N
x
i
σ^2=1N∑Ni=1(xi−μ^)2
σ
^
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
^
)
2
回到我们小球检测的栗子,我们可以求出的高斯分布如下图:
在这一节中,我们介绍了怎样使用MLE来求解一元高斯分布。然而实际情况中,可能需要提取的特征值不止色相值这一个(比如RGB三个值)。
这样一元高斯分布不再适用。为了解决这个问题,我们将在下一节中介绍多元高斯分布。
3. 多元高斯分布
让我们回到小球检测的栗子,在一元高斯分布下,我们只使用了色相值这一个性质。然而,颜色其实是用多个维度来定义的。比如,在HSV模型下,除了色相值还有饱和度(Saturation)和亮度(Value)。
而我们通常使用的三原色光模式(RGB模型)将颜色表示成红色(R)、绿色(G)和蓝色(B)的叠加。
如果我们用RGB值来表示一个颜色,怎样表示我们栗子中的小球呢?我们将图片中所有像素点的RGB值用散点图的形式画出来可以得到下面的图:
那我们怎样对这种图形进行建模呢?如这一节的题目所说,我们将一元高斯分布扩展到多元高斯分布并对RGB值进行建模。
让我们首先来介绍多元高斯分布的数学形式吧:
多元高斯分布和一元高斯分布是十分相似的,我们用加粗的 x x 来表示变量(一个向量),D表示维度(元的数目),加粗的 μ μ 表示平均向量,
大写的\Sigma表示协方差矩阵(Covariance Matrix,是一个方阵),|\Sigma|表示\Sigma的行列式值,( x−μ x − μ )^T表示矩阵( x−μ x − μ )的转置。
值得一提的是协方差矩阵,它由两部分组成,方差(Variance)和相关性(Correlation),对角线上的值表示方差,非对角线上的值表示维度之间的相关性。拿一个二维协方差矩阵作栗子:
其中,对角线上的 σ2x1 σ x 1 2 和 σ2x2 σ x 2 2 分别表示变量 x1 x 1 和 x2 x 2 的独立方差,非对角线上的 σx1σx2 σ x 1 σ x 2 表示两个变量之间的相关性(注意 σx1σx2 σ x 1 σ x 2 和 σx2σx1 σ x 2 σ x 1 是相等的)。
回到小球检测的栗子,我们考虑用RGB来对“红色”小球进行多元高斯分布的建模,那么各个参数就如下图所示了:
我们来看一下标准二元高斯分布图:
各个参数的变化对多元高斯分布的影响请参考课程内容本身。
值得一提的是,协方差矩阵中的相关性参数是一元高斯分布中没有的。那么怎样求解多元高斯分布呢?确切地说,怎样求解多元高斯分布中的平均向量 μ μ 和协方差矩阵 Σ Σ 呢?
4. 求解多元高斯分布:最大似然估计
和求解一元高斯分布类似,我们将问题描述为:给定观测值 {xi} { x i } ,求 μ μ 和 Σ Σ ,使得似然函数最大:
μ^,Σ^=arg maxμ,Σ p({xi}|μ,Σ) μ ^ , Σ ^ = arg max μ , Σ p ( { x i } | μ , Σ )
同样,假设观测值两两相互独立,根据独立概率公式,我们有:
μ^,Σ^=arg maxμ,Σ ∏Ni=1p(xi|μ,Σ) μ ^ , Σ ^ = arg max μ , Σ ∏ i = 1 N p ( x i | μ , Σ )
同样(1)取对数,(2)将多元高斯分布的形式带入,我们有:
我们给目标函数做个记号,令
J(μ,Σ)=∑Ni=1(12(xi−μ)TΣ−1(xi−μ)+12ln|Σ|) J ( μ , Σ ) = ∑ i = 1 N ( 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) + 1 2 ln | Σ | )
我们仍然分别对 μ μ 和 Σ Σ 求偏导来计算 μ^ μ ^ 和 Σ^ Σ ^ 。(这里需要矩阵求导的知识,可以参考Matrix Calculus Manual)
求得,
μ^=1N∑Ni=1xi μ ^ = 1 N ∑ i = 1 N x i
Σ^=1N∑Ni=1(xi−μ^)(xi−μ^)T Σ ^ = 1 N ∑ i = 1 N ( x i − μ ^ ) ( x i − μ ^ ) T
5. 高斯混合模型
在第一节和第四节,我们介绍了一元高斯分布和多元高斯分布,他们都属于单高斯模型(Single Gaussian Model)。
使用单高斯模型来建模有一些限制,例如,它一定只有一个众数,它一定对称的。举个例子,如果我们对下面的分布建立单高斯模型,会得到显然相差很多的模型:
于是,我们引入混合高斯模型(Gaussian Mixture Model,GMM)。高斯混合模型就是多个单高斯模型的和。
它的表达能力十分强,任何分布都可以用GMM来表示。例如,在下面这个图中,彩色的线表示一个一个的单高斯模型,黑色的线是它们的和,一个高斯混合模型:
在小球检测的栗子中,我们试图对红色小球建立单高斯模型(红和绿这二元),会发现红色小球的观测值不是很符合所建立的模型,如下图:
此时,如果我们采取高斯混合模型(两个二元高斯分布),会发现效果好了很多,如下图:
下面,我们来详细地介绍一下高斯混合模型,高斯混合模型的数学形式如下:
p(x)=∑Kk=1wkgk(x|μk,Σk) p ( x ) = ∑ k = 1 K w k g k ( x | μ k , Σ k )
其中, gk g k 是均值为 μk μ k ,协方差矩阵为 Σk Σ k 的单高斯模型, wk w k 是g_k的权重系数(w_k>0, ∑Kk=1wk=1 ∑ k = 1 K w k = 1 ),K是单高斯模型的个数。
前面我们提到了GMM的优点(能够表示任何分布),当然GMM也有缺点。其一,参数太多了,每一个单高斯模型都有均值、协方差矩阵和权重系数,另外还有单高斯模型的个数K也是其中一个参数,这使得求解GMM十分复杂。其二,有时候所建立的高斯混合模型对观测值的建模效果很好,但是其他值可能效果不好,我们称这个缺点为过度拟合(Overfitting)。
这一节我们介绍了高斯混合模型,与前面类似,我们将在下节介绍求解混合高斯模型的方法。
- 求解高斯混合模型:EM算法
在求解单高斯分布的时候,我们用最大似然估计(MLE)的方法得到了理论上的最优解。当我们使用相同的方法试图求解高斯混合模型的时候,会卡在中间步骤上(具体来说,是单高斯分布求和出现在了对数函数里面)。索性我们可以用迭代的方法来求解GMM,具体来说,最大期望算法(Expectation Maximization algorith,EM)。
上一节提到,我们想要求解GMM如下:
p(x)=∑Kk=1wkgk(x|μk,Σk) p ( x ) = ∑ k = 1 K w k g k ( x | μ k , Σ k )
这其中需要求解的变量很多:K、w_k、 μk μ k 、 Σk Σ k 。为了简化问题,我们假定K是预先设定好的,并且每个单高斯分布的权重相等,即假定:
w_k = \frac{1}{K},k=1,2,\cdots,K
这样,我们需要确定的就只剩下每个单高斯分布的参数(\boldsymbol\mu_k、\Sigma_k)了。
前面提到,这个模型是没有解析解(理论最优)的。取而代之,我们采取迭代的方法逼近最优解(大家可以回想一下牛顿法求近似求解方程,或者遗传算法)。
在牛顿法中,我们需要预先猜测一个初始解,同样在EM算法中,我们也需要预先猜测一个初始解 (μ1,Σ1,μ2,Σ2,⋯,μK,ΣK) ( μ 1 , Σ 1 , μ 2 , Σ 2 , ⋯ , μ K , Σ K ) 。
在EM算法中,我们引入一个中间变量 zik=gk(xi|μk,Σk)∑Ki=1gk(xi|μk,Σk)(k=1,2,⋯,K; i=1,2,⋯,N) z k i = g k ( x i | μ k , Σ k ) ∑ i = 1 K g k ( x i | μ k , Σ k ) ( k = 1 , 2 , ⋯ , K ; i = 1 , 2 , ⋯ , N ) ,
其中K是单高斯分布的个数,N是观测值的数目。
直观地可以这样理解:在确定了所有单高斯分布之后,可以计算观测值 xi x i 发生的概率(分母部分)和第k个单高斯分布 gk(μk,Σk) g k ( μ k , Σ k ) 下观测值 xi x i 发生的概率(分子部分),这样 zik z k i 就可以理解为第k个高斯分布对观测值 xi x i 发生的概率的贡献了。如下表所示:
\hline
& $\frac{1}{K}$ & $\frac{1}{K}$ & $\cdots$ & $\frac{1}{K}$ & $\cdots$ & $\frac{1}{K}$ \\
& $\boldsymbol\mu_1$ & $\boldsymbol\mu_2$ & $\cdots$ & $\boldsymbol\mu_k$ & $\cdots$ & $\boldsymbol\mu_K$ \\
& $\Sigma_1$ & $\Sigma_2$ & $\cdots$ & $\Sigma_k$ & $\cdots$ & $\Sigma_K$ \\
\hline
$x_1$ & $z^1_1$ & $z^1_2$ & $\cdots$ & $z^1_k$ & $\cdots$ & $z^1_K$ \\
\hline
$x_2$ & $z^2_1$ & $z^2_2$ & $\cdots$ & $z^2_k$ & $\cdots$ & $z^2_K$ \\
\hline
$\vdots$ & $\vdots$ & $\vdots$ & & $\vdots$ & & $\vdots$ \\
\hline
$x_i$ & $z^i_1$ & $z^i_2$ & $\cdots$ & $z^i_k$ & $\cdots$ & $z^i_K$ \\
\hline
$\vdots$ & $\vdots$ & $\vdots$ & & $\vdots$ & & $\vdots$ \\
\hline
$x_N$ & $z^N_1$ & $z^N_2$ & $\cdots$ & $z^N_k$ & $\cdots$ & $z^N_K$ \\
\hline
& $z_1$ & $z_2$ & $\cdots$ & $z_k$ & $\cdots$ & $z_K$ \\
\hline
\end{tabular} \begin{tabular}{|c|c|c|c|c|c|c|c|}\hline& $\frac{1}{K}$ & $\frac{1}{K}$ & $\cdots$ & $\frac{1}{K}$ & $\cdots$ & $\frac{1}{K}$ \\& $\boldsymbol\mu_1$ & $\boldsymbol\mu_2$ & $\cdots$ & $\boldsymbol\mu_k$ & $\cdots$ & $\boldsymbol\mu_K$ \\& $\Sigma_1$ & $\Sigma_2$ & $\cdots$ & $\Sigma_k$ & $\cdots$ & $\Sigma_K$ \\\hline$x_1$ & $z^1_1$ & $z^1_2$ & $\cdots$ & $z^1_k$ & $\cdots$ & $z^1_K$ \\\hline$x_2$ & $z^2_1$ & $z^2_2$ & $\cdots$ & $z^2_k$ & $\cdots$ & $z^2_K$ \\\hline$\vdots$ & $\vdots$ & $\vdots$ & & $\vdots$ & & $\vdots$ \\\hline$x_i$ & $z^i_1$ & $z^i_2$ & $\cdots$ & $z^i_k$ & $\cdots$ & $z^i_K$ \\\hline$\vdots$ & $\vdots$ & $\vdots$ & & $\vdots$ & & $\vdots$ \\\hline$x_N$ & $z^N_1$ & $z^N_2$ & $\cdots$ & $z^N_k$ & $\cdots$ & $z^N_K$ \\\hline& $z_1$ & $z_2$ & $\cdots$ & $z_k$ & $\cdots$ & $z_K$ \\\hline\end{tabular}
表中最后一行 zk=∑Ni=1zik z k = ∑ i = 1 N z k i 可以理解为第 k k 个单高斯分布对整个GMM的贡献。
例如,当GMM中K=2时(即由两个单高斯分布组成):
在这个图中,对于观测值是第一个单高斯分布
g1
g
1
下
xi
x
i
发生的概率,
p2/2
p
2
/
2
是第二个单高斯分布
g2
g
2
下
xi
x
i
发生的概率,
(p1+p2)/2
(
p
1
+
p
2
)
/
2
是在整个GMM下
xi
x
i
发生的概率;
zi1=p1p1+p2 z 1 i = p 1 p 1 + p 2 表示g_1对$boldsymbol{x_i} 发生概率的贡献, 发 生 概 率 的 贡 献 , z_2^i=\frac{p_2}{p_1+p_2}表示g_2对\boldsymbol{x_i}$发生概率的贡献。
当我们算出了所有的z_k^i之后,我们再反过来用它更新每一个单高斯分布。更新的公式为:
μk=1zk∑Ni=1zikxi
μ
k
=
1
z
k
∑
i
=
1
N
z
k
i
x
i
Σk=1zk∑Ni=1zik(xi−μk)(xi−μk)T Σ k = 1 z k ∑ i = 1 N z k i ( x i − μ k ) ( x i − μ k ) T
大家可以想一想,对于第k个高斯分布 gk,zik/zk g k , z k i / z k 可以理解为第i个观测值\boldsymbol{x_i}的贡献,而 μk μ k 表示 gk g k 的平均值,用 1zk∑Ni=1zikxi 1 z k ∑ i = 1 N z k i x i 来更新 μk μ k 就很好理解了,进而再更新协方差矩阵 Σk Σ k 。
这样,两组值互相更新,当相邻两个步骤值的差小于事先设定一个阈值(threshold)时(收敛),我们停止循环,输出 μk μ k 和 Σk Σ k 为所求。
值得一提的是,EM算法的结果和初值有很大关系,不同初值会得到不同的解。(想象一下GMM模型其实是多峰的,不同的初值可能最终收敛到不同的峰值,有的初值会收敛到全局最优,有的初值会收敛到局部最优)