Robotics: Estimation and Learning.WEEK 1

W E E K 1 {\Large WEEK \qquad 1} WEEK1

1.1 1维高斯分布

1.1.1 为什么学习高斯分布?

∙ \qquad \bullet 两个参数(期望和方差)易于运算和解释说明
∙ \qquad \bullet 良好的数学属性(例如:高斯分布的乘积仍是高斯分布)
∙ \qquad \bullet 由中心极限定理,任何随机变量样本均值的期望收敛于高斯分布
因此,高斯分布是为噪声和不确定性建模的合适选择。
\qquad 高斯分布的形式为:
p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 ( 1 ) p(x)= \frac{1}{\sqrt{2\pi}{\sigma}^{}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\qquad(1) p(x)=2π σ1e2σ2(xμ)2(1)

1.1.2 最大似然估计计算1维高斯参数

\qquad 使用给定的观测数据估计期望和方差,似然函数方程如下图所示:
p ( { x i } ∣ μ , σ ) ( 2 ) p(\{x_{i}\}| \mu,\sigma) \qquad(2) p({xi}μ,σ)(2)其中, x i {x_{i}} xi为观测数据, μ , σ \mu,\sigma μ,σ为未知参数。参数计算方程如下图所示:
μ ^ , σ ^ = a r g m a x μ , σ p ( x i ∣ μ , σ ) ( 3 ) \hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}p({x_{i}|\mu,\sigma})\qquad(3) μ^,σ^=argμ,σmaxp(xiμ,σ)(3) \qquad 参数估计值为当似然函数取到最大值时对应的参数值。假设各估计值相互独立则:
p ( { x i } ∣ μ , σ ) = ∏ i = 1 N p ( x i ∣ μ , σ ) ( 4 ) p(\{x_{i}\}| \mu,\sigma)= \prod_{i=1}^N p({x_{i}}| \mu,\sigma)\qquad(4) p({xi}μ,σ)=i=1Np(xiμ,σ)(4)高斯分布的参数估计具有解析解,其计算步骤为:
\qquad 首先对极大似然函数取对数形式,对数函数是单调递增则:
a r g m a x μ , σ ∏ i = 1 N p ( x i ∣ μ , σ ) = a r g m a x μ , σ ln ⁡ ∏ i = 1 N p ( x i ∣ μ , σ ) ( 5 ) arg \mathop{max}\limits_{\mu,\sigma}\prod_{i=1}^N p({x_{i}}| \mu,\sigma)=arg \mathop{max}\limits_{\mu,\sigma}\ln\prod_{i=1}^N p({x_{i}}| \mu,\sigma)\qquad(5) argμ,σmaxi=1Np(xiμ,σ)=argμ,σmaxlni=1Np(xiμ,σ)(5)由对数函数性质:
a r g m a x μ , σ ln ⁡ ∏ i = 1 N p ( x i ∣ μ , σ ) = a r g m a x μ , σ ∑ i = 1 N ln ⁡ p ( x i ∣ μ , σ ) ( 6 ) arg \mathop{max}\limits_{\mu,\sigma}\ln\prod_{i=1}^N p({x_{i}}| \mu,\sigma)=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \ln p({x_{i}}| \mu,\sigma)\qquad(6) argμ,σmaxlni=1Np(xiμ,σ)=argμ,σmaxi=1Nlnp(xiμ,σ)(6)运算后得:
μ ^ , σ ^ = a r g m a x μ , σ ∑ i = 1 N { − ( x i − μ ) 2 2 σ 2 − ln ⁡ σ − ln ⁡ 2 π } ( 7 ) \hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \left\{ -\frac{(x_{i}-\mu)^2}{2\sigma^2}-\ln\sigma-\ln\sqrt{2\pi} \right\}\qquad(7) μ^,σ^=argμ,σmaxi=1N{2σ2(xiμ)2lnσln2π }(7)忽略常数项并转化为最小值问题,记为 J ( μ , σ ) J(\mu,\sigma) J(μ,σ)
J ( μ , σ ) = μ ^ , σ ^ = a r g m i n μ , σ ∑ i = 1 N { ( x i − μ ) 2 2 σ 2 + ln ⁡ σ } ( 8 ) J(\mu,\sigma)=\hat{\mu},\hat{\sigma}=arg \mathop{min}\limits_{\mu,\sigma}\sum_{i=1}^N \left\{ \frac{(x_{i}-\mu)^2}{2\sigma^2}+\ln\sigma \right\}\qquad(8) J(μ,σ)=μ^,σ^=argμ,σmini=1N{2σ2(xiμ)2+lnσ}(8)利用凸优化判据 μ 和 σ 看 作 自 变 量 , 对 应 代 价 函 数 的 最 小 值 \color{#F00}{\mu和\sigma看作自变量,对应代价函数的最小值} μσ
∂ J ∂ μ = 0 , ∂ J ∂ σ = 0 ( 9 ) \frac{\partial J}{\partial \mu}=0,\frac{\partial J}{\partial \sigma}=0\qquad(9) μJ=0,σJ=0(9)由上式求出 μ ^ = 1 N ∑ i = 1 N x i ( 10 ) σ ^ 2 = 1 N ∑ i = 1 N ( x i − μ ^ ) 2 ( 11 ) \hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}x_{i}\qquad(10)\\ \hat{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{\mu})^{2} \qquad(11) μ^=N1i=1Nxi(10)σ^2=N1i=1N(xiμ^)2(11) μ ^ \hat{\mu} μ^为样本均值, σ ^ \hat{\sigma} σ^为样本方差。

1.2 多维高斯分布

1.2.1 多维高斯分布数学表达式

p ( x ) = 1 ( 2 π ) D / 2 ∣ ∑ ∣ 1 / 2 e x p { − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) } ( 12 ) p(x)=\frac{1}{(2\pi)^{D/2}{|\sum|}^{1/2}}exp\left\{-\frac{1}{2}(x-\mu)^{T}\begin{matrix}\sum^{-1}(x-\mu) \end{matrix}\right\}\qquad(12) p(x)=(2π)D/21/21exp{21(xμ)T1(xμ)}(12)其中D为变量维数,x为变量向量, μ \mu μ为期望向量, ∑ \sum 为方差矩阵, ∣ ∑ ∣ |\sum| 为方差矩阵行列式。协方差矩阵是对称矩阵其中对角线上为方差,非对角线为变量相关性。

1.2.2 多维高斯分布参数求解

\qquad 方法与上述一维求解方法相同,参数求解为:
μ ^ = 1 N ∑ i = 1 N x i ( 13 ) σ ^ 2 = 1 N ∑ i = 1 N ( x i − μ ^ ) ( x i − μ ^ ) T ( 14 ) \hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}x_{i}\qquad(13)\\ \hat{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{\mu})(x_{i}-\hat{\mu})^{T}\qquad(14) μ^=N1i=1Nxi(13)σ^2=N1i=1N(xiμ^)(xiμ^)T(14)

1.3 混合高斯模型

\qquad 混合高斯模型可以看作不同参数的高斯模型的加权求和,表达式如下:
p ( x ) = ∑ k = 1 K w k g k ( x ∣ μ k , ∑ k ) ( 15 ) p(x)=\sum_{k=1}^{K}w_{k}g_{k}(x|\mu_{k},\begin{matrix}\sum_{k} \end{matrix}) \qquad(15) p(x)=k=1Kwkgk(xμk,k)(15) g k g_{k} gk是期望为 μ k \mu_{k} μk,方差为 ∑ k \begin{matrix}\sum_{k} \end{matrix} k的高斯模型。 w k w_{k} wk为加权值, w k w_{k} wk>0, ∑ k = 1 K w k = 1 \sum_{k=1}^{K}w_{k}=1 k=1Kwk=1(保证混合高斯模型的密度函数积分为1)。理论上可以表示任意形状的高斯分布,但相较于单纯高斯分布其具有更多的参数,求解参数变得困难,混合高斯分布不能求出解析解,犯错的概率增大

1.3.1 求解混合高斯参数及其权重(EM算法)

\qquad 与1维高斯参数求解方法相同,列出最大似然函数化简可得:
μ ^ , σ ^ = a r g m a x μ , σ ∑ i = 1 N ln ⁡ { w k ∑ k = 1 K g k ( x i ∣ μ k , ∑ k ) } ( 16 ) \hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \ln \left\{w_{k}\sum_{k=1}^Kg_{k}(x_{i}|\mu_{k},\begin{matrix}\sum_{k} \end{matrix})\right\}\qquad(16) μ^,σ^=argμ,σmaxi=1Nln{wkk=1Kgk(xiμk,k)}(16)由方程可以看出不能解析化简该方程即不能求出解析解(是指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式,从解的表达式中就可以算出任何对应值。)。本例给定 w k w_{k} wk
\qquad 其求解过程类似许多的非凸问题,具有许多次优解称为局部最小值。
g k ( x ) = 1 ( 2 π ) D / 2 ∣ ∑ k ∣ 1 / 2 e x p { − 1 2 ( x − μ k ) T ∑ k − 1 ( x − μ k ) } ( 17 ) g_{k}(x)=\frac{1}{(2\pi)^{D/2}{|\begin{matrix}\sum_k\end{matrix}|}^{1/2}}exp\left\{-\frac{1}{2}(x-\mu_{k})^{T}\begin{matrix}\sum_{k}^{-1}(x-\mu_{k}) \end{matrix}\right\}\qquad(17) gk(x)=(2π)D/2k1/21exp{21(xμk)Tk1(xμk)}(17)
EM算法步骤:
\qquad 1.设置期望 μ \mu μ和方差 σ \sigma σ的初始值。
\qquad 2.设置第k个高斯模型的第i个数据点的潜变量(E-step):
z k i = g k ( x i ∣ μ k , ∑ k ) ∑ k = 1 K g k ( x i ∣ μ k , ∑ k ) ( 18 ) z_{k}^{i}=\frac{g_{k}(x_i|\mu_{k},\begin{matrix}\sum_{k} \end{matrix})}{\begin{matrix}\sum_{k=1}^{K}g_{k}(x_{i}|\mu_{k},\begin{matrix}\sum_{k} \end{matrix}\end{matrix})}\qquad(18) zki=k=1Kgk(xiμk,k)gk(xiμk,k)(18) z k i z_{k}^{i} zki可以看作数据i是由第k个高斯模型生成的概率。
\qquad 3.参数估计值为 (M-step)
μ ^ k = 1 z k ∑ i = 1 N z k i x i ( 19 ) ∑ ^ k = 1 z k ∑ i = 1 N z k i ( x i − μ ^ k ) ( x i − μ ^ k ) T ( 20 ) z k = ∑ i = 1 N z k i ( 21 ) \hat{\mu}_{k}=\frac{1}{z_{k}}\sum_{i=1}^{N}z_{k}^{i}x_{i}\qquad(19)\\ \begin{matrix}\hat{\sum}_{k}\end{matrix}=\frac{1}{z_{k}}\sum_{i=1}^{N}z_{k}^{i}(x_{i}-\hat \mu_{k})(x_{i}-\hat \mu_{k})^{T} \qquad(20)\\ z_{k}=\begin{matrix}{\sum}_{i=1}^{N}z_{k}^{i}\end{matrix}\qquad(21) μ^k=zk1i=1Nzkixi(19)^k=zk1i=1Nzki(xiμ^k)(xiμ^k)T(20)zk=i=1Nzki(21) \qquad 4. 循环步骤2和步骤3,直到 μ ^ k \hat{\mu}_{k} μ^k, ∑ ^ k \begin{matrix}\hat{\sum}_{k}\end{matrix} ^k变化很小即收敛到局部最优值上。

1.3.2 EM算法的一般化应用

\qquad EM算法看作是对目标函数下界的最大化过程。函数表达式为:
a r g m a x θ ∑ i ln ⁡ p ( x i ∣ θ ) θ : 所 有 参 数 ( 22 ) arg \mathop{max}\limits_{\theta}\sum_{i} \ln p(x_i|\theta) \qquad \theta:所有参数\qquad(22) argθmaxilnp(xiθ)θ:(22)所求就是下文中的G
\qquad EM算法的先验知识
∙ \bullet Jensen’s不等式:设f(x)是凸函数得
f ( ∑ a i x i ) ≤ ∑ a i f ( x i ) ( ∑ a i = 1 , a i ≥ 0 ) ( 23 ) f(\sum a_ix_i)\leq \sum a_if(x_i)\qquad(\sum a_i=1,a_i\ge0)\qquad(23) f(aixi)aif(xi)(ai=1,ai0)(23) \qquad 由处理的函数为对数函数,对数函数是凹函数得
l n ( ∑ a i p i ) ≥ ∑ a i l n p i ( ∑ a i = 1 , a i ≥ 0 ) ( 24 ) ln(\sum a_ip_i)\ge\sum a_ilnp_i\qquad(\sum a_i=1,a_i\ge0)\qquad(24) ln(aipi)ailnpi(ai=1,ai0)(24)因此,可以使用Jensen不等式来作为一个下界。
∙ \bullet 引入潜变量z
p ( X ∣ θ ) = ∑ Z p ( X , Z ∣ θ ) ( 25 ) p(X|\theta)=\sum_Z p(X,Z|\theta)\qquad(25) p(Xθ)=Zp(X,Zθ)(25)潜变量z不能确切知道,对隐变量取边缘概率。
\qquad 获取如上所示的下界
l n   p ( X ∣ θ ) = l n ∑ Z p ( X , Z ∣ θ ) ( 似 然 函 数 ) = l n ∑ Z q ( Z ) p ( X , Z ∣ θ ) q ( Z ) ≥ ∑ Z q ( Z ) l n p ( X , Z ∣ θ ) q ( Z ) ( 下 界 ) ( 26 ) ln\ p(X|\theta)=ln\sum_{Z}p(X,Z|\theta)\quad(似然函数)\\=ln\sum_{Z}q(Z)\frac{p(X,Z|\theta)}{q(Z)}\ge\sum_{Z}q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}\quad(下界)\qquad(26) ln p(Xθ)=lnZp(X,Zθ)()=lnZq(Z)q(Z)p(X,Zθ)Zq(Z)lnq(Z)p(X,Zθ)()(26) q ( Z ) q(Z) q(Z)是由 θ \theta θ确定的,是关于 Z Z Z的概率分布密度函数。
∙ \bullet EM步骤:
\qquad (1)由上式: ( F ) l n   p ( X ∣ θ ) ≥ ∑ Z q ( Z ) l n p ( X , Z ∣ θ ) q ( Z ) ( G ) ( 27 ) (F)ln\ p(X|\theta)\ge\sum_{Z}q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}(G)\qquad(27) (F)ln p(Xθ)Zq(Z)lnq(Z)p(X,Zθ)(G)(27) \qquad 给定初始 θ 0 \theta_{0} θ0同时给定下界G,使 G ( θ ∣ θ 0 ) G(\theta|\theta_{0}) G(θθ0) F ( θ ) F(\theta) F(θ)具有局部相似性
\qquad (2)由求参数的最大似然估计,由给定的G求出更好的参数 θ 1 \theta_{1} θ1,由 θ 1 \theta_{1} θ1重新确定下界G,返回步骤1。
\qquad 直到参数收敛到一个局部最优值,求出对应 θ \theta θ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值