前言
该笔记主要对Coursera上宾西法尼亚大学的Robotics: Estimation and Learning课程进行总结以及个人的一些理解,与Robotics: Estimation and Learning同系列的还有Robotics: Aerial Robotics、Robotics: Mobility和Robotics: Computational Motion Planning。
1.为什么是高斯分布?是什么让高斯分布变得有用而且重要呢?
a.描述高斯分布只需要俩个参数,它们是均值和方差,它们就是该分布的本质信息。(Only two parameters)
b.高斯分布具有一些很好的数学性质,例如:多个高斯分布的乘积可以形成另一个高斯分布。(Good mathematical properties)
c.中心极限定理告诉我们任何随机变量的样本均值的期望都收敛于高斯分布。(Central limit theorem)
以上说明高斯分布是一个为噪声和不确定性建模的合适选择。
2.最大似然估计(MLE)
似然(Likelihood)的定义:似然是当给定模型参数时,随机变量取到观测值的概率,下标 i i i 表示一次特定的观察,在 x x x的多个测量值中,这次观察结果被记为 x i x_{i} xi。
L i k e l i h o o d : p ( { x i } ∣ μ , σ ) Likelihood: p(\begin{Bmatrix}{x_{i}}\end{Bmatrix} | \mu, \sigma) Likelihood:p({ xi}∣μ,σ),其中 { x i } \begin{Bmatrix}{x_{i}}\end{Bmatrix} { xi}为观测数据(observed data), μ , σ \mu, \sigma μ,σ为未知参数(unknown parameters) (代表着给定参数,观测到所有数据可能性,所以越大越好)
假如我们有一个小球,如下面图片所示,那我们怎么来用高斯模型(要求确定 μ , σ \mu, \sigma μ,σ)来描述其像素值的分布,可以用极大似然法的方法来估计。
怎么通过观察到的数据来估计高斯模型的均值和方差?
(1) 这里需要强调的是,我们拥有数据,而我们需要去估计的是模型的参数。我们对于给定观测数据时,能将似然函数最大化的参数很感兴趣。
如果用数学的方式来表达刚才讲的,我们可以这么写:
μ ^ , σ ^ = a r g m a x μ , σ ( { x i } ∣ μ , σ ) \hat{\mu},\hat{\sigma}=arg \ \underset{\mu,\sigma}{max}(\begin{Bmatrix}{x_{i}}\end{Bmatrix}| \mu,\sigma ) μ^,σ^=arg μ,σmax({
xi}∣μ,σ)
其中 μ ^ , σ ^ \hat{\mu},\hat{\sigma} μ^,σ^ 表示对 μ , σ \mu,\sigma μ,σ的估计 。
我们需要最大化的似然函数是所有样本数据的联合概率,如果每个观测不是独立的,问题将很棘手。如果我们假设每一个观测之间都是相互独立的,联合似然概率就可以表达为关于每个样本的似然函数的乘积,公式如下所示:
p ( { x i } ∣ μ , σ ) = ∏ i = 1 N p ( x i ∣ μ , σ ) p(\begin{Bmatrix}{x_{i}}\end{Bmatrix}| \mu,\sigma )=\prod_{i=1}^{N} p(x_{i} | \mu,\sigma ) p({
xi}∣μ,σ)=∏i=1Np(xi∣μ,σ)
在这种情况下,我们试着计算 μ \mu μ和 σ \sigma σ的极大似然估计。
由于对数具有单调递增的性质,所以我们最大化似然函数的时候,可以利用对数函数的性质,通过最大化对数似然函数就能找到参数值的极大似然估计,虽然函数值是不同的,但是使目标函数达到最大值的参数值却是一样的。
a r g m a x μ , σ ∏ i = 1 N p ( x i ∣ μ , σ ) = a r g m a x μ , σ l n { ∏ i = 1 N p ( x i ∣ μ , σ ) } = a r g m a x μ , σ ∑ i = 1 N l n p ( x i ∣ μ , σ ) arg\ \underset{\mu,\sigma}{max}\prod_{i=1}^{N} p(x_{i}| \mu,\sigma )\\=arg\ \underset{\mu,\sigma}{max} \ ln \begin{Bmatrix} \prod_{i=1}^{N} p(x_{i}| \mu,\sigma )\end{Bmatrix} \\=arg\ \underset{\mu,\sigma}{max}\sum_{i=1}^{N} \ ln \ p(x_{i}| \mu,\sigma ) arg μ,σmax∏i=1Np(xi∣μ,σ)=arg μ,σmax ln{ ∏i=1Np(xi∣μ,σ)}=arg μ,σmax∑i=1N ln p(xi∣μ,σ)
从上面公式中,利用对数函数的性质,我们将最大化似然函数转化为每个测量量的似然取对数后的和。
因此,问题就转换为找到 μ , σ \mu,\sigma μ,σ,使得每个测量量的似然的对数和最大。
(2) 这里值得注意的是,我们的所用的似然函数为高斯模型:
p ( x i ∣ μ , σ ) = 1 2 π σ e x p { − ( x i − μ ) 2 σ 2 } p(x_{i}|\mu, \sigma)=\frac{1}{\sqrt{2\pi}\ \sigma}exp \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}}\end{Bmatrix} p(xi∣μ,σ)=2π σ1exp{
−2σ2(xi−μ)}
利用对数的形式,我们可以转换为:
l n p ( x i ∣ μ , σ ) = l n 1 2 π σ e x p { − ( x i − μ ) 2 σ 2 } = { − ( x i − μ ) 2 σ 2 − l n σ − l n 2 π } ln \ p(x_{i}|\mu, \sigma) \\=ln \frac{1}{\sqrt{2\pi}\ \sigma}exp \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}}\end{Bmatrix} \\= \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}-ln \sigma - ln \sqrt{2 \pi}}\end{Bmatrix} ln p(xi∣μ,σ)=ln2π σ1exp{
−2σ2(xi−μ)}={
−2σ2(xi−μ)−lnσ−ln2π}
因此,
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
μ ^ , σ ^ = a r g m a x μ , σ ∑ i = 1 N { − ( x i − μ ) 2 σ 2 − l n σ − l n 2 π } = a r g m a x μ , σ ∑ i = 1 N { − ( x i − μ ) 2 σ 2 − l n σ } ( 其 中 − l n 2 π 不 影 响 结 果 , 所 以 将 其 去 掉 ) = a r g m i n μ , σ ∑ i = 1 N { ( x i − μ ) 2 σ 2 + l n σ } ( 将 其 转 化 为 最 小 化 问 题 , 尽 管 这 俩 个 问 题 是 等 价 的 , 但 是 最 小 化 是 优 化 问 题 的 标 准 形 式 ) \hat{\mu},\hat{\sigma} \\=arg \ \underset{\mu,\sigma}{max}\sum_{i=1}^{N} \ \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}-ln \sigma - ln \sqrt{2 \pi}}\end{Bmatrix} \\=arg \ \underset{\mu,\sigma}{max}\sum_{i=1}^{N} \ \begin{Bmatrix}{- \frac{(x_{i}-\mu)}{2 \sigma^{2}}-ln \sigma}\end{Bmatrix} ( 其中- ln \sqrt{2 \pi}不影响结果,所以将其去掉) \\=arg \ \underset{\mu,\sigma}{min}\sum_{i=1}^{N} \ \begin{Bmatrix}{\frac{(x_{i}-\mu)}{2 \sigma^{2}}+ln \sigma}\end{Bmatrix}(将其转化为最小化问题,尽管这俩个问题是等价的,但是最小化是优化问题的标准形式) μ^,σ^=arg μ,σmax∑i=1N {
−2σ2(