Robotics: Estimation and Learning.WEEK 1

最新推荐文章于 2020-03-05 12:42:23 发布

liverpool的T9

最新推荐文章于 2020-03-05 12:42:23 发布

阅读量453

点赞数

分类专栏： Robotic Estimation Learning 文章标签： Robotic Estimation Learning 机器人的估计与学习高斯分布 EM算法

本文链接：https://blog.csdn.net/weixin_43010548/article/details/88012237

版权

Robotic Estimation Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

${\Large WEEK \qquad 1}$

1.1 1维高斯分布

1.1.1 为什么学习高斯分布？

$\qquad \bullet$ 两个参数（期望和方差）易于运算和解释说明
$\qquad \bullet$ 良好的数学属性（例如：高斯分布的乘积仍是高斯分布）
$\qquad \bullet$ 由中心极限定理，任何随机变量样本均值的期望收敛于高斯分布
因此，高斯分布是为噪声和不确定性建模的合适选择。
$\qquad$ 高斯分布的形式为：
$\frac{1}{\sqrt{2\pi}{\sigma}^{}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\qquad(1)$

1.1.2 最大似然估计计算1维高斯参数

$\qquad$ 使用给定的观测数据估计期望和方差,似然函数方程如下图所示：
$p(\{x_{i}\}| \mu,\sigma) \qquad(2)$ 其中， ${x_{i}}$ 为观测数据， $\mu,\sigma$ 为未知参数。参数计算方程如下图所示：
$\hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}p({x_{i}|\mu,\sigma})\qquad(3)$ $\qquad$ 参数估计值为当似然函数取到最大值时对应的参数值。假设各估计值相互独立则：
$p(\{x_{i}\}| \mu,\sigma)= \prod_{i=1}^N p({x_{i}}| \mu,\sigma)\qquad(4)$ 高斯分布的参数估计具有解析解，其计算步骤为：
$\qquad$ 首先对极大似然函数取对数形式，对数函数是单调递增则：
$\mathop{max}\limits_{\mu,\sigma}\prod_{i=1}^N p({x_{i}}| \mu,\sigma)=arg \mathop{max}\limits_{\mu,\sigma}\ln\prod_{i=1}^N p({x_{i}}| \mu,\sigma)\qquad(5)$ 由对数函数性质：
$\mathop{max}\limits_{\mu,\sigma}\ln\prod_{i=1}^N p({x_{i}}| \mu,\sigma)=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \ln p({x_{i}}| \mu,\sigma)\qquad(6)$ 运算后得：
$\hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \left\{ -\frac{(x_{i}-\mu)^2}{2\sigma^2}-\ln\sigma-\ln\sqrt{2\pi} \right\}\qquad(7)$ 忽略常数项并转化为最小值问题，记为 $J(\mu,\sigma)$
$J(\mu,\sigma)=\hat{\mu},\hat{\sigma}=arg \mathop{min}\limits_{\mu,\sigma}\sum_{i=1}^N \left\{ \frac{(x_{i}-\mu)^2}{2\sigma^2}+\ln\sigma \right\}\qquad(8)$ 利用凸优化判据 $\color{#F00}{\mu和\sigma看作自变量，对应代价函数的最小值}$
$\frac{\partial J}{\partial \mu}=0,\frac{\partial J}{\partial \sigma}=0\qquad(9)$ 由上式求出 $\hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}x_{i}\qquad(10)\\ \hat{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{\mu})^{2} \qquad(11)$ $\hat{\mu}$ 为样本均值， $\hat{\sigma}$ 为样本方差。

1.2 多维高斯分布

1.2.1 多维高斯分布数学表达式

$p(x)=\frac{1}{(2\pi)^{D/2}{|\sum|}^{1/2}}exp\left\{-\frac{1}{2}(x-\mu)^{T}\begin{matrix}\sum^{-1}(x-\mu) \end{matrix}\right\}\qquad(12)$ 其中D为变量维数，x为变量向量， $\mu$ 为期望向量， $\sum$ 为方差矩阵， $|\sum|$ 为方差矩阵行列式。协方差矩阵是对称矩阵其中对角线上为方差，非对角线为变量相关性。

1.2.2 多维高斯分布参数求解

$\qquad$ 方法与上述一维求解方法相同，参数求解为：
$\hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}x_{i}\qquad(13)\\ \hat{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{\mu})(x_{i}-\hat{\mu})^{T}\qquad(14)$

1.3 混合高斯模型

$\qquad$ 混合高斯模型可以看作不同参数的高斯模型的加权求和，表达式如下：
$p(x)=\sum_{k=1}^{K}w_{k}g_{k}(x|\mu_{k},\begin{matrix}\sum_{k} \end{matrix}) \qquad(15)$ $g_{k}$ 是期望为 $\mu_{k}$ ，方差为 $\begin{matrix}\sum_{k} \end{matrix}$ 的高斯模型。 $w_{k}$ 为加权值， $w_{k}$ >0, $\sum_{k=1}^{K}w_{k}=1$ (保证混合高斯模型的密度函数积分为1)。理论上可以表示任意形状的高斯分布，但相较于单纯高斯分布其具有更多的参数，求解参数变得困难，混合高斯分布不能求出解析解，犯错的概率增大。

1.3.1 求解混合高斯参数及其权重（EM算法）

$\qquad$ 与1维高斯参数求解方法相同，列出最大似然函数化简可得：
$\hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \ln \left\{w_{k}\sum_{k=1}^Kg_{k}(x_{i}|\mu_{k},\begin{matrix}\sum_{k} \end{matrix})\right\}\qquad(16)$ 由方程可以看出不能解析化简该方程即不能求出解析解(是指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式，从解的表达式中就可以算出任何对应值。)。本例给定 $w_{k}$ 。
$\qquad$ 其求解过程类似许多的非凸问题，具有许多次优解称为局部最小值。
$g_{k}(x)=\frac{1}{(2\pi)^{D/2}{|\begin{matrix}\sum_k\end{matrix}|}^{1/2}}exp\left\{-\frac{1}{2}(x-\mu_{k})^{T}\begin{matrix}\sum_{k}^{-1}(x-\mu_{k}) \end{matrix}\right\}\qquad(17)$
EM算法步骤：
$\qquad$ 1.设置期望 $\mu$ 和方差 $\sigma$ 的初始值。
$\qquad$ 2.设置第k个高斯模型的第i个数据点的潜变量为 (E-step):
$z_{k}^{i}=\frac{g_{k}(x_i|\mu_{k},\begin{matrix}\sum_{k} \end{matrix})}{\begin{matrix}\sum_{k=1}^{K}g_{k}(x_{i}|\mu_{k},\begin{matrix}\sum_{k} \end{matrix}\end{matrix})}\qquad(18)$ $z_{k}^{i}$ 可以看作数据i是由第k个高斯模型生成的概率。
$\qquad$ 3.参数估计值为 (M-step) ：
$\hat{\mu}_{k}=\frac{1}{z_{k}}\sum_{i=1}^{N}z_{k}^{i}x_{i}\qquad(19)\\ \begin{matrix}\hat{\sum}_{k}\end{matrix}=\frac{1}{z_{k}}\sum_{i=1}^{N}z_{k}^{i}(x_{i}-\hat \mu_{k})(x_{i}-\hat \mu_{k})^{T} \qquad(20)\\ z_{k}=\begin{matrix}{\sum}_{i=1}^{N}z_{k}^{i}\end{matrix}\qquad(21)$ $\qquad$ 4. 循环步骤2和步骤3，直到 $\hat{\mu}_{k}$ , $\begin{matrix}\hat{\sum}_{k}\end{matrix}$ 变化很小即收敛到局部最优值上。

1.3.2 EM算法的一般化应用

$\qquad$ EM算法看作是对目标函数下界的最大化过程。函数表达式为：
$\mathop{max}\limits_{\theta}\sum_{i} \ln p(x_i|\theta) \qquad \theta:所有参数\qquad(22)$ 所求就是下文中的G
$\qquad$ EM算法的先验知识
$\bullet$ Jensen’s不等式：设f(x)是凸函数得
$f(\sum a_ix_i)\leq \sum a_if(x_i)\qquad(\sum a_i=1,a_i\ge0)\qquad(23)$ $\qquad$ 由处理的函数为对数函数，对数函数是凹函数得
$ln(\sum a_ip_i)\ge\sum a_ilnp_i\qquad(\sum a_i=1,a_i\ge0)\qquad(24)$ 因此，可以使用Jensen不等式来作为一个下界。
$\bullet$ 引入潜变量z
$p(X|\theta)=\sum_Z p(X,Z|\theta)\qquad(25)$ 潜变量z不能确切知道，对隐变量取边缘概率。
$\qquad$ 获取如上所示的下界
$ln\ p(X|\theta)=ln\sum_{Z}p(X,Z|\theta)\quad(似然函数)\\=ln\sum_{Z}q(Z)\frac{p(X,Z|\theta)}{q(Z)}\ge\sum_{Z}q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}\quad(下界)\qquad(26)$ $q (Z)$ 是由 $\theta$ 确定的，是关于 $Z$ 的概率分布密度函数。
$\bullet$ EM步骤：
$\qquad$ （1）由上式: $(F)ln\ p(X|\theta)\ge\sum_{Z}q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}(G)\qquad(27)$ $\qquad$ 给定初始 $\theta_{0}$ 同时给定下界G，使 $G(\theta|\theta_{0})$ 与 $F(\theta)$ 具有局部相似性。
$\qquad$ （2）由求参数的最大似然估计，由给定的G求出更好的参数 $\theta_{1}$ ，由 $\theta_{1}$ 重新确定下界G，返回步骤1。
$\qquad$ 直到参数收敛到一个局部最优值，求出对应 $\theta$ 。