周学习总结

燎原之心

已于 2022-03-16 17:51:49 修改

阅读量2.3k

点赞数 3

分类专栏：轨迹规划文章标签：学习概率论机器学习

于 2022-03-16 17:46:57 首次发布

本文链接：https://blog.csdn.net/github_39582118/article/details/123518658

版权

轨迹规划专栏收录该内容

2 篇文章 2 订阅

订阅专栏

EM算法

高斯混合模型

随机变量 X 满足如下概率分布：
$\theta)=\sum_{j=1}^{k} \alpha_{j} \varphi\left(X ; \theta_{j}\right)$
其中 $\alpha_{j}$ 是满足 $\alpha_{j}>0$ 且 $\sum_{j=1}^{k} \alpha_{j}=1$ 的系数； $\varphi\left(X ; \theta_{j}\right)$ 是参数 $\theta_{j}=\left(\mu_{j}, \sigma_{j}^{2}\right)$ 的高斯分布密度函数。
假设 $\alpha_j$ 为随机变量 $z_j$ 服从概率分布 $z_j ~ P(Z; \lambda)$ ，则参数 $\theta=\{\lambda,\mu,\sum\}$

由于样本集X的变量相互独立，因此想要找到一组参数 $\theta$ 使事件发生的概率最大
$\begin{aligned} \arg \max _{\hat{\theta}} P(X ; \theta) &=\arg \max _{\hat{\theta}} \prod_{i=1}^{m} \sum_{j=1}^{n} P\left(X=x_{i}, Z=z_{j} ; \theta\right) \\ &=\arg \max _{\hat{\theta}} \prod_{X} \sum_{Z} P(X, Z ; \theta) \\ &=\arg \max _{\hat{\theta}} L(\theta) \end{aligned}$
Z是函数的隐变量，通常是要求解多个概率的系数，且 $\sum_{j=1} P(Z=z_j) = 1$

（1）变换似然函数并寻找下界
对似然函数取对数，用 $log(\sum_{i=1} x_i) >= \sum_{i=1} log(x_i)$ 凹函数的性质求解下界
$\begin{aligned} \mathcal{L}(\theta) &=\sum_{i=1}^{m} \log \sum_{j=1}^{n} P\left(X=x_{i}, Z=z_{j} ; \theta\right) \\ &=\sum_{i=1}^{m} \log \sum_{j=1}^{n} Q\left(Z=z_{j} ; \theta_{z}\right) \frac{P\left(X=x_{i}, Z=z_{j} ; \theta\right)}{Q\left(Z=z_{j} ; \theta_{z}\right)} \\ & \geq \sum_{i=1}^{m} \sum_{j=1}^{n} Q\left(Z=z_{j} ; \theta_{z}\right) \log \frac{P\left(X=x_{i}, Z=z_{j} ; \theta\right)}{Q\left(Z=z_{j} ; \theta_{z}\right)} \\ &=\sum_{X} \sum_{Z} Q\left(Z ; \theta_{z}\right) \log \frac{P(X, Z ; \theta)}{Q\left(Z ; \theta_{z}\right)} \end{aligned}$

E 步

高斯混合模型产生了 m 个样例，每个样例 $x_i$ 的隐含类别 $Z = z_j$ 的概率，E步即求解隐变量 $z_j$ 的过程，先估计参数 $\theta=\{ \alpha, \mu,\sum\}$ 的初值，则Z的后验概率为
$\begin{aligned} Q_{i}\left(Z=z_{j}\right) &=P\left(Z=z_{j} \mid X=x_{i} ; \theta\right) \\ &=\frac{P\left(Z=z_{j}, X=x_{i} ; \theta\right)}{P\left(X=x_{i} ; \theta\right)} \\ &=\frac{P\left(Z=z_{j}, X=x_{i} ; \theta\right)}{\sum_{r=1}^{k} P\left(Z=z_{r}, X=x_{i} ; \theta\right)} \\ &=\frac{\alpha_{j} \varphi\left(X=x_{i} ; \theta_{j}\right)}{\sum_{r=1}^{k} \alpha_{r} \varphi\left(X=x_{i} ; \theta_{r}\right)} \end{aligned}$

M步

M步其实就是在求解出 $Q_i(Z=z_j)$ 之后，根据极大似然函数求极值求解参数 $\theta$ 的值
$\begin{aligned} \mathcal{L}(\theta) &=\sum_{X} \sum_{Z} Q\left(Z ; \theta_{z}\right) \log \frac{P(X, Z ; \theta)}{Q\left(Z ; \theta_{z}\right)} \\ &=\sum_{i=1}^{m} \sum_{j=1}^{k} Q_{i}\left(Z=z_{j} ; \theta\right) \log \frac{P\left(X=x_{i}, Z=z_{j} ; \theta\right)}{Q_{i}\left(Z=z_{j} ; \theta\right)} \\ &=\sum_{i=1}^{m} \sum_{j=1}^{k} Q_{i}\left(Z=z_{j}\right) \log \frac{P\left(X=x_{i} ; \mu, \Sigma\right) P\left(Z=z_{j} ; \lambda\right)}{Q_{i}\left(Z=z_{j}\right)} \end{aligned}$

求解参数 $\mu_{l}$ ，公式就和我们平时求解均值的公式一样，这里 $w_{i,j}=Q_i(Z=z_j)$
$\mu_{l}=\frac{\sum_{i=1}^{m} w_{i, l} x_{i}}{\sum_{i=1}^{m} w_{i, l}}$
求解参数 $\sum_l$
$\Sigma_{l}=\frac{\sum_{i=1}^{m}\left(x_{i}-\mu_{l}\right)\left(x_{i}-\mu_{l}\right)^{T} w_{i, l}}{\sum_{i=1}^{m} w_{i, l}}$
求解 $\alpha_l$
$\alpha_{l}=\frac{1}{m} \sum_{i=1}^{m} w_{i, l}$

详细过程

高斯混合回归 GMR

高斯混合回归 ( Gaussian Mixture Regression)是另一种流行的时间序列和运动表示技术。它依赖于多元高斯分布的线性变换和条件反射性质。GMR提供了一种综合机制来计算输出分布，其计算时间与用于训练模型的数据点的数量无关。GMR的一个特点是它不直接对回归函数进行建模。相反，它首先以高斯混合模型(GMM)的形式来模拟数据的联合概率密度。然后可以从学习的联合密度模型计算回归函数，从而非常快速地计算条件分布。

在GMR中，输入变量和输出变量都可以是多维的。可以选择输入-输出维度的任何子集，如果需要，它可以在每个时间步长中进行更改。因此，可以考虑输入-输出映射的任何组合，其中对其余维度的期望被计算为一个多元分布。下面，我们将在时间步 $t$ 的数据点 $\boldsymbol{x}_{t} \in \mathbb{R}^{D}$ 的块分解，将GMM中第 $k$ 个高斯分布的中心 $\mu_k$ 和协方差 $\Sigma_k$ 表示为
$\boldsymbol{x}_{t}=\left[\begin{array}{c} \boldsymbol{x}_{t}^{I} \\ \boldsymbol{x}_{t}^{O} \end{array}\right], \quad \boldsymbol{\mu}_{k}=\left[\begin{array}{l} \boldsymbol{\mu}_{k}^{I} \\ \boldsymbol{\mu}_{k}^{O} \end{array}\right], \quad \boldsymbol{\Sigma}_{k}=\left[\begin{array}{cc} \boldsymbol{\Sigma}_{k}^{I} & \boldsymbol{\Sigma}_{k}^{I O} \\ \boldsymbol{\Sigma}_{k}^{O I} & \boldsymbol{\Sigma}_{k}^{O} \end{array}\right]$

我们首先考虑基于时间的轨迹的例子，使用 $\boldsymbol{x}_{t}^I$ 的时间变量。在每个时间步长 $t$ ， $P(\boldsymbol{x}_t^O|\boldsymbol{x}_t^I)$ 可以计算为多元高斯条件分布
$\mathcal{P}\left(\boldsymbol{x}_{t}^{o} \mid \boldsymbol{x}_{t}^{I}\right)=\sum_{k=1}^{K} h_{k}\left(\boldsymbol{x}_{t}^{I}\right) \mathcal{N}\left(\hat{\boldsymbol{\mu}}_{k}^{o}\left(\boldsymbol{x}_{t}^{I}\right), \hat{\boldsymbol{\Sigma}}_{k}^{o}\right),$
则高斯分布的参数更新为：
$\hat{\boldsymbol{\mu}}_{k}^{o}\left(\boldsymbol{x}_{t}^{I}\right)=\boldsymbol{\mu}_{k}^{o}+\boldsymbol{\Sigma}_{k}^{O I} \boldsymbol{\Sigma}_{k}^{I-1}\left(\boldsymbol{x}_{t}^{I}-\boldsymbol{\mu}_{k}^{I}\right) \\ \begin{aligned} \hat{\boldsymbol{\Sigma}}_{k}^{o} &=\boldsymbol{\Sigma}_{k}^{O}-\boldsymbol{\Sigma}_{k}^{O I} \boldsymbol{\Sigma}_{k}^{I-1} \boldsymbol{\Sigma}_{k}^{I O} \\ \text { and } \quad h_{k}\left(\boldsymbol{x}_{t}^{I}\right) &=\frac{\pi_{k} \mathcal{N}\left(\boldsymbol{x}_{t}^{I} \mid \boldsymbol{\mu}_{k}^{I}, \boldsymbol{\Sigma}_{k}^{I}\right)}{\sum_{i=1}^{K} \pi_{i} \mathcal{N}\left(\boldsymbol{x}_{t}^{I} \mid \boldsymbol{\mu}_{i}^{I}, \boldsymbol{\Sigma}_{i}^{I}\right)} \end{aligned}$
其中 $h_k$ 是EM算法估计的E步，求解隐变量

当需要单峰输出分布时，可以使用总均值和方差定律（见图，右）来用高斯分布来近似该分布
$\begin{aligned} \mathcal{P}\left(\boldsymbol{x}_{t}^{o} \mid \boldsymbol{x}_{t}^{I}\right) &=\mathcal{N}\left(\boldsymbol{x}_{t}^{o} \mid \hat{\boldsymbol{\mu}}^{O}\left(\boldsymbol{x}_{t}^{I}\right), \hat{\boldsymbol{\Sigma}}^{o}\left(\boldsymbol{x}_{t}^{I}\right)\right) \\ \hat{\boldsymbol{\mu}}^{O}\left(\boldsymbol{x}_{t}^{I}\right) &=\sum_{k=1}^{K} h_{k}\left(\boldsymbol{x}_{t}^{I}\right) \hat{\boldsymbol{\mu}}_{k}^{O}\left(\boldsymbol{x}_{t}^{I}\right) \\ \hat{\boldsymbol{\Sigma}}^{O}\left(\boldsymbol{x}_{t}^{I}\right) &=\sum_{k=1}^{K} h_{k}\left(\boldsymbol{x}_{t}^{I}\right)\left(\hat{\boldsymbol{\Sigma}}_{k}^{o}+\hat{\boldsymbol{\mu}}_{k}^{O}\left(\boldsymbol{x}_{t}^{I}\right) \hat{\boldsymbol{\mu}}_{k}^{O}\left(\boldsymbol{x}_{t}^{I}\right)^{\top}\right)-\hat{\boldsymbol{\mu}}^{O}\left(\boldsymbol{x}_{t}^{I}\right) \hat{\boldsymbol{\mu}}^{O}\left(\boldsymbol{x}_{t}^{I}\right)^{\top} \end{aligned}$

在这里插入图片描述

高斯过程回归

高斯过程

高斯过程(Gaussian Process)指高斯分布与随机过程，是定义在连续域上的无限多个高斯随机变量组成的随机过程，即高斯过程是一个无限维的高斯分布
对于一个连续域 $T$ （假设他是一个时间轴），如果我们在连续域上任选 $n$ 个时刻： $t_1, t_2, t_3, ...,t_n \in T$ ，使得获得的一个 $n$ 维向量 $\left\{\xi_{1}, \xi_{2}, \xi_{3}, \ldots, \xi_{n}\right\}$ 都满足其是一个 $n$ 维高斯分布，那么这个 $\{\xi_t\}$ 就是一个高斯过程。

核函数

核函数以径向基函数为例，其中 $s$ 和 $t$ 表示任意两个时刻，核函数也称协方差函数。
$t)=\sigma^{2} \exp \left(-\frac{\|s-t\|^{2}}{2 l^{2}}\right)$

高斯过程回归 GPR

用 $\mu(t)$ 和 $k (s, t)$ 来定义高斯过程，因为没有观测值，因此是一个先验，如果获取一组观测值后，如何修正高斯过程的均值函数与核函数，使之得到后验过程？

假设一个回归问题： $\boldsymbol{x}^O = f(\boldsymbol{x}^I) +\boldsymbol{\eta}$ ， $f$ 是未知函数， $\eta$ 是高斯噪声，通过假设观测数据集作为输入-输出对 $\left\{\boldsymbol{x}_{t}^{\mathcal{I}}, \boldsymbol{x}_{t}^{\mathcal{O}}\right\}_{t=1}^{N}$ ，目的是评估函数 $f$ 的形式和相应的输出分布 $\boldsymbol{x}^O$ , 即 $\boldsymbol{x}^{\mathcal{O} *} \sim \mathcal{P}\left(\boldsymbol{x}^{\mathcal{O}} \mid \boldsymbol{x}^{\mathcal{I} *}\right)$

协方差是高斯过程的核心，通过使用核函数 $k(\boldsymbol{x}_i^I , \boldsymbol{x}_j^I)$ 定义，提供两个样本 $\boldsymbol{x}_i^I$ 和 $\boldsymbol{x}_j^I$ 之间的协方差元素。对于一组输入 $\boldsymbol{x}^I＝\{X_1^I，X_2^I，…，X_N^I \}$ ，协方差矩阵（也称为GM矩阵）被定义为：
$\boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I}}\right)=\left[\begin{array}{cccc} k\left(\boldsymbol{x}_{1}^{\mathcal{I}}, \boldsymbol{x}_{1}^{\mathcal{I}}\right) & k\left(\boldsymbol{x}_{1}^{\mathcal{I}}, \boldsymbol{x}_{2}^{\mathcal{I}}\right) & \cdots & k\left(\boldsymbol{x}_{1}^{\mathcal{I}}, \boldsymbol{x}_{N}^{\mathcal{I}}\right) \\ k\left(\boldsymbol{x}_{2}^{\mathcal{I}}, \boldsymbol{x}_{1}^{\mathcal{I}}\right) & k\left(\boldsymbol{x}_{2}^{\mathcal{I}}, \boldsymbol{x}_{2}^{\mathcal{I}}\right) & \cdots & k\left(\boldsymbol{x}_{2}^{\mathcal{I}}, \boldsymbol{x}_{N}^{\mathcal{I}}\right) \\ \vdots & \vdots & \ddots & \vdots \\ k\left(\boldsymbol{x}_{N}^{\mathcal{I}}, \boldsymbol{x}_{1}^{\mathcal{I}}\right) & k\left(\boldsymbol{x}_{N}^{\mathcal{I}}, \boldsymbol{x}_{2}^{\mathcal{I}}\right) & \cdots & k\left(\boldsymbol{x}_{N}^{\mathcal{I}}, \boldsymbol{x}_{N}^{\mathcal{I}}\right) \end{array}\right]$
即混合高斯分布服从 $\boldsymbol{x}^O \sim \mathcal{N}\left(\boldsymbol{\mu}\left(\boldsymbol{x}^{\mathcal{I}}\right), \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I}}\right)\right)$

当存在与观测值相关的相关的噪声时， $I$ 是单位矩阵，即噪声仅添加在对角线上
$\tilde{\boldsymbol{K}}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I}}\right)=\boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I}}\right)+\Theta^{\mathrm{GP}} \boldsymbol{I}$

对于回归问题，我们感兴趣的是给定输入数据 $\boldsymbol{x}^{I*}$ 的后验分布 $\boldsymbol{x}^{O*}$ ，那么输入输出对 $\{ \boldsymbol{x}^I, \boldsymbol{x}^O\}$ 增加输入新的输入 $\boldsymbol{x}^{I*}$ 和输出 $\boldsymbol{x}^{O*}$ 的联合分布为：
$\left[\begin{array}{c} \boldsymbol{x}^{\mathcal{O}} \\ \boldsymbol{x}^{\mathcal{O} *} \end{array}\right] \sim \mathcal{N}\left(\left[\begin{array}{c} \boldsymbol{\mu}\left(\boldsymbol{x}^{\mathcal{I}}\right) \\ \boldsymbol{\mu}\left(\boldsymbol{x}^{\mathcal{I} *}\right) \end{array}\right],\left[\begin{array}{cc} \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I}}\right) & \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I} *}\right) \\ \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I} *}, \boldsymbol{x}^{\mathcal{I}}\right) & \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I} *}, \boldsymbol{x}^{\mathcal{I} *}\right) \end{array}\right]\right)$
利用条件高斯分布可以估计出输出 $\boldsymbol{x}^{O*}$ 的后验分布:
$\boldsymbol{x}^{\mathcal{O} *} \mid \boldsymbol{x}^{\mathcal{O}} \sim \mathcal{N}\left(\boldsymbol{\mu}^{*}, \boldsymbol{\Sigma}^{*}\right)$

其中均值与协方差：
$\begin{aligned} \boldsymbol{\mu}^{*} &=\boldsymbol{\mu}\left(\boldsymbol{x}^{\mathcal{I} *}\right)+\boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I} *}, \boldsymbol{x}^{\mathcal{I}}\right) \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I}}\right)^{-1}\left(\boldsymbol{x}^{\mathcal{O}}-\boldsymbol{\mu}\left(\boldsymbol{x}^{\mathcal{I}}\right)\right) \\ \boldsymbol{\Sigma}^{*} &=\boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I} *}, \boldsymbol{x}^{\mathcal{I} *}\right)-\boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I} *}, \boldsymbol{x}^{\mathcal{I}}\right) \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I}}\right)^{-1} \boldsymbol{K}\left(\boldsymbol{x}^{\mathcal{I}}, \boldsymbol{x}^{\mathcal{I} *}\right) \end{aligned}$

也就是说，设置了高斯过程的先验参数，一旦拿到一些观测值，那么就可以对高斯过程的均值函数和核函数进行修正，得到一个修正后的后验高斯过程，而更新后验参数的信息就来自于观测值。

概率运动基元

ProMP（probabilistic movement primitive）模型假设每一条演示的轨迹 $\in \{1，…，M\}$ 可以用 $K$ 个归一化RBF的加权和来近似
$\boldsymbol{\xi}_{m}=\boldsymbol{\Psi} \boldsymbol{w}_{m}+\boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim \mathcal{N}(0,\lambda \boldsymbol{I} )$
基函数的定义为
$\boldsymbol{\Psi}=\left[\begin{array}{cccc} \boldsymbol{I} \phi_{1}\left(t_{1}\right) & \boldsymbol{I} \phi_{2}\left(t_{1}\right) & \cdots & \boldsymbol{I} \phi_{K}\left(t_{1}\right) \\ \boldsymbol{I} \phi_{1}\left(t_{2}\right) & \boldsymbol{I} \phi_{2}\left(t_{2}\right) & \cdots & \boldsymbol{I} \phi_{K}\left(t_{2}\right) \\ \vdots & \vdots & \ddots & \vdots \\ \boldsymbol{I} \phi_{1}\left(t_{T}\right) & \boldsymbol{I} \phi_{2}\left(t_{T}\right) & \cdots & \boldsymbol{I} \phi_{K}\left(t_{T}\right) \end{array}\right]$
其中 $\boldsymbol{\Psi} \in \mathbb{R}^{DT \times DK}$ ， $\in \mathbb{R}^{D}$ ，根据最小二乘法，求解最小标准差，向量 $\boldsymbol{w}_m \in \mathbb{R}^{DK}$ 可以被估计为
$\boldsymbol{w}_{m}=\left(\boldsymbol{\Psi}^{\top} \boldsymbol{\Psi}\right)^{-1} \boldsymbol{\Psi}^{\top} \boldsymbol{\xi}_{m}$

假设 $\left\{\boldsymbol{w}_{m}\right\}_{m=1}^{M}$ 服从高斯分布 $\mathcal{N}(\boldsymbol{\mu}^{\boldsymbol{w}} ,\boldsymbol{\Sigma}^{\boldsymbol{w}})$ ，则轨迹分布表示为
$\mathcal{P}(\boldsymbol{\xi})=\int \mathcal{P}(\boldsymbol{\xi} \mid \boldsymbol{w}) \mathcal{P}(\boldsymbol{w}) d \boldsymbol{w}$
积分去掉权重系数 $\boldsymbol{w}$ ，从而得到轨迹的高斯分布
$\boldsymbol{\xi} \sim \mathcal{N}\left(\boldsymbol{\Psi} \boldsymbol{\mu}^{\boldsymbol{w}}, \boldsymbol{\Psi} \boldsymbol{\Sigma}^{w} \boldsymbol{\Psi}^{\top}+\lambda \boldsymbol{I}\right)$

ProMP 参数为 $\theta = \{\lambda, \mu_k^I , \Sigma_k^I , \boldsymbol{\mu}^{\boldsymbol{w}}, \boldsymbol{\Sigma}^{\boldsymbol{w}}\}$ ，估计DK维的高斯分布，提供运动的紧凑表示，分离时间分量 $\Psi$ 和空间分量 $\mathcal{N}(\boldsymbol{\mu}^{\boldsymbol{w}} ,\boldsymbol{\Sigma}^{\boldsymbol{w}})$ 。与DMP类似，ProMP可以与GMM/GMR结合，作为联合分布问题自动估计基函数的参数和泛化，而不是人工指定它们。