Robotics:Estimation and Learning 1—机器人学统计建模中的高斯分布(Gaussian distribution in robotics statistic model)

最新推荐文章于 2024-07-25 16:26:04 发布

Hansry

最新推荐文章于 2024-07-25 16:26:04 发布

阅读量2k

点赞数 2

本文链接：https://blog.csdn.net/Hansry/article/details/80413581

版权

本文是Coursera上宾夕法尼亚大学机器人学课程的笔记，重点介绍了高斯分布在机器人统计建模中的作用。文章讨论了高斯分布为何重要，包括其数学特性、中心极限定理的应用。通过最大似然估计（MLE）方法，解释了如何估计高斯模型的均值和方差。此外，还介绍了多变量高斯分布、最大似然估计在多维情况下的应用，以及高斯混合模型（GMM）和期望最大化（EM）算法在参数估计中的使用。

摘要由CSDN通过智能技术生成

前言

该笔记主要对Coursera上宾西法尼亚大学的Robotics: Estimation and Learning课程进行总结以及个人的一些理解，与Robotics: Estimation and Learning同系列的还有Robotics: Aerial Robotics、Robotics: Mobility和Robotics: Computational Motion Planning。

1.为什么是高斯分布？是什么让高斯分布变得有用而且重要呢？

a.描述高斯分布只需要俩个参数，它们是均值和方差，它们就是该分布的本质信息。（Only two parameters）
b.高斯分布具有一些很好的数学性质，例如：多个高斯分布的乘积可以形成另一个高斯分布。（Good mathematical properties）
c.中心极限定理告诉我们任何随机变量的样本均值的期望都收敛于高斯分布。（Central limit theorem）
以上说明高斯分布是一个为噪声和不确定性建模的合适选择。

2.最大似然估计（MLE）

似然（Likelihood）的定义：似然是当给定模型参数时，随机变量取到观测值的概率，下标 $i$ 表示一次特定的观察，在 $x$ 的多个测量值中，这次观察结果被记为 $x_{i}$ 。

$p(\begin{Bmatrix}{x_{i}}\end{Bmatrix} | \mu, \sigma)$ ，其中 $\begin{Bmatrix}{x_{i}}\end{Bmatrix}$ 为观测数据（observed data）， $\mu, \sigma$ 为未知参数（unknown parameters）（代表着给定参数，观测到所有数据可能性，所以越大越好）

假如我们有一个小球，如下面图片所示，那我们怎么来用高斯模型（要求确定 $\mu, \sigma$ ）来描述其像素值的分布，可以用极大似然法的方法来估计。
这里写图片描述

怎么通过观察到的数据来估计高斯模型的均值和方差？

(1) 这里需要强调的是，我们拥有数据，而我们需要去估计的是模型的参数。我们对于给定观测数据时，能将似然函数最大化的参数很感兴趣。

如果用数学的方式来表达刚才讲的，我们可以这么写：
$\hat{\mu},\hat{\sigma}=arg \ \underset{\mu,\sigma}{max}(\begin{Bmatrix}{x_{i}}\end{Bmatrix}| \mu,\sigma )$
其中 $\hat{\mu},\hat{\sigma}$ 表示对 $\mu,\sigma$ 的估计。

我们需要最大化的似然函数是所有样本数据的联合概率，如果每个观测不是独立的，问题将很棘手。如果我们假设每一个观测之间都是相互独立的，联合似然概率就可以表达为关于每个样本的似然函数的乘积，公式如下所示：
$p(\begin{Bmatrix}{x_{i}}\end{Bmatrix}| \mu,\sigma )=\prod_{i=1}^{N} p(x_{i} | \mu,\sigma )$

在这种情况下，我们试着计算 $\mu$ 和 $\sigma$ 的极大似然估计。

由于对数具有单调递增的性质，所以我们最大化似然函数的时候，可以利用对数函数的性质，通过最大化对数似然函数就能找到参数值的极大似然估计，虽然函数值是不同的，但是使目标函数达到最大值的参数值却是一样的。

$arg\ \underset{\mu,\sigma}{max}\prod_{i=1}^{N} p(x_{i}| \mu,\sigma )\\=arg\ \underset{\mu,\sigma}{max} \ ln \begin{Bmatrix} \prod_{i=1}^{N} p(x_{i}| \mu,\sigma )\end{Bmatrix} \\=arg\ \underset{\mu,\sigma}{max}\sum_{i=1}^{N} \ ln \ p(x_{i}| \mu,\sigma )$

从上面公式中，利用对数函数的性质，我们将最大化似然函数转化为每个测量量的似然取对数后的和。

因此，问题就转换为找到 $\mu,\sigma$ ,使得每个测量量的似然的对数和最大。

(2) 这里值得注意的是，我们的所用的似然函数为高斯模型：
$p(x_{i}|\mu, \sigma)=\frac{1}{\sqrt{2\pi}\ \sigma}exp \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}}\end{Bmatrix}$

利用对数的形式，我们可以转换为：
$\ p(x_{i}|\mu, \sigma) \\=ln \frac{1}{\sqrt{2\pi}\ \sigma}exp \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}}\end{Bmatrix} \\= \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}-ln \sigma - ln \sqrt{2 \pi}}\end{Bmatrix}$

因此，
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
$\hat{\mu},\hat{\sigma} \\=arg \ \underset{\mu,\sigma}{max}\sum_{i=1}^{N} \ \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}-ln \sigma - ln \sqrt{2 \pi}}\end{Bmatrix} \\=arg \ \underset{\mu,\sigma}{max}\sum_{i=1}^{N} \ \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}-ln \sigma}\end{Bmatrix} ( 其中- ln \sqrt{2 \pi}不影响结果，所以将其去掉) \\=arg \ \underset{\mu,\sigma}{min}\sum_{i=1}^{N} \ \begin{Bmatrix}{\frac{(x_{i}-\mu)}{2 \sigma^{2}}+ln \sigma}\end{Bmatrix}(将其转化为最小化问题，尽管这俩个问题是等价的，但是最小化是优化问题的标准形式)$