滤波系列（一）卡尔曼滤波算法（KF）：详细数学推导

最新推荐文章于 2024-06-06 16:51:57 发布

置顶 snushe♤

最新推荐文章于 2024-06-06 16:51:57 发布

阅读量3k

点赞数 6

分类专栏：滤波系列文章标签：隐马尔可夫模型概率论机器学习算法

本文链接：https://blog.csdn.net/qq_33797005/article/details/105383578

版权

滤波系列专栏收录该内容

3 篇文章 2 订阅

订阅专栏

滤波系列（一）卡尔曼滤波算法（KF）

在本文，将给出卡尔曼滤波算法的详细数学推导过程，如果想直接了解卡尔曼滤波算法的应用，请看博客：卡尔曼滤波算法的应用（python代码）或者直接可以调用Python FilterPy包

KF推导

符号说明

概率图模型

图1：系统的概率图模型

其中 $X_t$ 表示隐状态， $Y_t$ 表示量测，黑色的箭头表示状态转移过程，红色的箭头表示测量过程， $P(X_t│X_{t-1})$ 为状态转移的概率， $P(Y_t│X_t )$ 为量测概率。
从概率图模型可以看出，这里有两个假设条件，第一：假设目标的状态转移过程服从一阶马尔可夫模型，即当前时刻的状态 $X_t$ 只与上一时刻的状态 $X_{t-1}$ 有关；第二：假设观测值相互独立，即观测值 $Y_t$ 只与 $t$ 时刻的隐状态 $X_t$ 有关。
状态转移过程：

$P(X_t│X_{t-1} )=N(AX_{t-1}+B,Q) \quad（1）$

等价于：

$X_t=AX_{t-1}+B+ω,ω \sim N(0,Q) \quad（2）$

$ω$ 表示过程噪声，它服从均值为0，协方差为 $Q$ 的高斯分布。

量测过程：

$P(Y_t│X_t )=N(HX_t+C,R) \quad（3）$

等价于：

$Y_t=HX_t+C+ν,ν \sim N(0,R) \quad（4）$

$ν$ 表示量测噪声，它服从均值为0，协方差为 $R$ 的高斯分布。

公式推导：

$X_t$ 的后验概率分布为：

$P(X_t│Y_1,⋯Y_t )=\frac{P(X_t,Y_1,⋯Y_t )}{P(Y_1,⋯Y_t )} \quad（5）$

$P(Y_1,⋯Y_t )$ 为量测 $Y_1,⋯Y_t$ 发生的概率，在给定量测数据的情况下为一个常数，因此：

$P(X_t│Y_1,⋯Y_t )\\ ∝P(X_t,Y_1,⋯Y_t ) \\ =P(Y_t│X_t,Y_1,⋯Y_{t-1} )P(X_t│Y_1,⋯Y_{t-1} )P(Y_1,⋯Y_{t-1} ) \\ ∝P(Y_t│X_t )P(X_t│Y_1,⋯Y_{t-1} ) \quad（6）$

注:同理 $P(Y_1,⋯Y_{t-1} )$ 也是一个常数；同时又由假设可知，观测值相互独立，即观测值 $Y_t$ 只与 $t$ 时刻的隐状态 $X_t$ 有关，所以 $P(Y_t│X_t,Y_1,⋯Y_{t-1} )=P(Y_t│X_t )$ 。

$P(Y_t│X_t )$ 已经化为最简，就是量测方程，所以我们将重点解决 $P(X_t│Y_1,⋯Y_{t-1})$ 。

注:因为我们已知状态转移方程 $P(X_t│X_{t-1} )$ ，所以我们想把这个表达式引入到上面的表达式里，即 $P(X_t,X_{t-1}│Y_1,⋯Y_{t-1} )$ ，同时我们为了等式端相等，就需要把随机变量 $X_{t-1}$ 积分掉。

$P(X_t│Y_1,⋯Y_{t-1} )=\int_{X_{t-1}}{P(X_t,X_{t-1}│Y_1,⋯Y_{t-1} )}dX_{t-1}\\ =\int_{X_{t-1}}{P(X_t│X_{t-1},Y_1,⋯Y_{t-1} )P(X_{t-1}│Y_1,⋯Y_{t-1} )}dX_{t-1} \\=\int_{X_{t-1}}{P(X_t│X_{t-1} )P(X_{t-1}│Y_1,⋯Y_{t-1} )}dX_{t-1}\quad（7）$
注:由假设1知，目标的状态转移过程服从一阶马尔可夫模型，即当前时刻的状态 $X_t$ 只与上一时刻的状态 $X_{t-1}$ 有关，因此 $P(X_t│X_{t-1},Y_1,⋯Y_{t-1})=P(X_t│X_{t-1})$ 。
注: $P(X_t,X_{t-1}│Y_1,⋯Y_{t-1} )=\frac{P(X_t,X_{t-1},Y_1,⋯Y_{t-1} )}{P(Y_1,⋯Y_{t-1} ) } \\=\frac{P(X_t,X_{t-1},Y_1,⋯Y_{t-1} )P(X_{t-1},Y_1,⋯Y_{t-1} )}{P(X_{t-1},Y_1,⋯Y_{t-1} )P(Y_1,⋯Y_{t-1} )} \\ =P(X_t│X_{t-1},Y_1,⋯Y_{t-1} )P(X_{t-1}│Y_1,⋯Y_{t-1} )$

整理一下式子6和式子7，

$P(X_t│Y_1,⋯Y_t )∝P(Y_t│X_t )P(X_t│Y_1,⋯Y_{t-1} ) \\∝P(Y_t│X_t )\int_{X_{t-1}}{P(X_t│X_{t-1} )P(X_{t-1}│Y_1,⋯Y_{t-1} )}dX_{t-1}\quad (8)$

这里出现了递归！！！ $P(X_t│Y_1,⋯Y_t )$ 与 $P(X_{t-1}│Y_1,⋯Y_{t-1 })$ 递归，令 $P(X_t│Y_1,⋯Y_t )=N(\hat{\mu}_t,\hat{\Sigma}_t)$ ,那么 $P(X_{t-1}│Y_1,⋯Y_{t-1})=N(\hat{\mu}_{t-1},\hat{\Sigma}_{t-1})$ ，令 $P(X_t│Y_1,⋯Y_{t-1})=N(\bar{\mu}_t,\bar{\Sigma}_t)$ 。
由公式7得预测步（利用前t-1个时刻的量测来预测第t个时刻的状态）：

$P(X_t│Y_1,⋯Y_{t-1} )= \int_{X_{t-1}}{P(X_t│X_{t-1} )P(X_{t-1}│Y_1,⋯Y_{t-1} )}dX_{t-1}=N(\bar{\mu}_t,\bar{\Sigma}_t) \quad (9)$

由公式6得更新步（利用第 $t$ 个时刻的量测来更新第 $t$ 个时刻的状态）：
$P(X_t│Y_1,⋯Y_t )=N(\hat{\mu}_t,\hat{\Sigma}_t)∝P(Y_t│X_t )P(X_t│Y_1,⋯Y_{t-1} ) \quad(10)$
$t = 1$ : $P(X_1│Y_1 )=N(\hat{\mu}_1,\hat{\Sigma}_1)$ 更新（第一个时刻只有更新，没有预测）
$t = 2$ : $P(X_2│Y_1 )=N(\bar{\mu}_2,\bar{\Sigma}_2)$ 预测
$P(X_2│Y_1,Y_2 )=N(\hat{\mu}_2,\hat{\Sigma}_2)$ 更新
$t = 3$ : $P(X_3│Y_1,Y_2 )=N(\bar{\mu}_3,\bar{\Sigma}_3)$ 预测
$P(X_3│Y_1,Y_2,Y_3 )=N(\hat{\mu}_3,\hat{\Sigma}_3)$ 更新
$\dots$
$t = t$ : $P(X_t│Y_1,⋯Y_{t-1} )=N(\bar{\mu}_t,\bar{\Sigma}_t)$ 预测
$P(X_t│Y_1,⋯Y_t )=N(\hat{\mu}_t,\hat{\Sigma}_t)$ 更新
给出一个动态模型的描述(不考虑常数项)：

$\begin{cases} X_t=AX_{t-1}+ω,ω \sim N(0,Q) \\ Y_t=HX_t+ν, ν \sim N(0,R)\\ \end{cases} \quad(11)$

由一阶马尔科夫假设和观测独立性假设知： $cov(X_{t-1},ω)=0,cov(X_{t-1},ν)=0,cov(ω,ν)=0$
由递归表达式可知：

$P(X_t│Y_1,⋯Y_{t-1} )=N(\bar{\mu}_t,\bar{\Sigma}_t) \quad (12)$

$P(X_{t-1}│Y_1,⋯Y_{t-1} )=N(\hat{\mu}_{t-1},\hat{\Sigma}_{t-1})\\=E[X_{t-1} ]+ΔX_{t-1}, ΔX_{t-1} \sim N(0,\hat{\Sigma}_{t-1}) \quad(13)$

由状态转移过程可知：

$P(X_t│Y_1,⋯Y_{t-1})=AX_{t-1}+ω\\=A(E[X_{t-1} ]+ΔX_{t-1})+ω=AE[X_{t-1} ]+AΔX_{t-1}+ω\\=E[X_t ]+ΔX_t \quad(14)$

$\begin{cases} E[X_t ]=AE[X_{t-1}]=A\hat{\mu}_{t-1}\\ ΔX_t=AΔX_{t-1}+ω\\ \end{cases} \quad(15)$

注： $V[X_t ]=E[(X_t-E[X_t ]) (X_t-E[X_t ])^T ]=E[ΔX_t ΔX_t^T ]$ 。

$P(X_t│Y_1,⋯Y_{t-1} )=N(\bar{\mu}_t,\bar{\Sigma}_t)\\=N(AE[X_{t-1} ],E[ΔX_t ΔX_t^T ])=N(A\hat{\mu}_{t-1},E[ΔX_t ΔX_t^T ]) \quad(16)$

$E[ΔX_t ΔX_t^T ]=E[(AΔX_{t-1} +ω) (AΔX_{t-1} +ω)^T ] \\=E[(AΔX_{t-1} +ω)(ΔX_{t-1} ^T A^T+ω^T )] =E[AΔX_{t-1} ΔX_{t-1} ^T A^T+ωω^T ] \\=AE[ΔX_{t-1} ΔX_{t-1} ^T ] A^T+E[ωω^T ]=A\hat{\Sigma}_{t-1} A^T+Q \quad(17)$

注： $cov(X_{t-1} ,ω)=0,cov(X_{t-1} ,ν)=0,cov(ω,ν)=0$ 。
预测公式：

$\bar{\mu}_t=A\hat{\mu}_{t-1} \quad(18)$

$\bar{\Sigma}_t=A\hat{\Sigma}_{t-1} A^T+Q \quad(19)$

由量测方程知：
$P(Y_t│Y_1,⋯Y_{t-1} )=HX_t+ν=H(AE[X_{t-1} ]+AΔX_{t-1}+ω)+ν \\=HAE[X_{t-1} ]+HAΔX_{t-1}+Hω+ν=E[Y_t ]+ΔY_t (20)$

$\begin{cases} E[Y_t ]=HAE[X_{t-1}]=HA\hat{\mu}_{t-1}=H\bar{\mu}_t\\ ΔY_t=HAΔX_{t-1}+Hω+ν\\ \end{cases} \quad(21)$

$P(Y_t│Y_1,⋯Y_{t-1} )=N(HAE[X_{t-1} ],E[ΔY_t ΔY_t^T ])\\=N(H\bar{\mu}_t,E[ΔY_t ΔY_t^T ])\quad (22)$

$E[ΔY_t ΔY_t^T ]=E[(HAΔX_{t-1}+Hω+ν) (HAΔX_{t-1}+Hω+ν)^T ] \\=E[(HAΔX_{t-1}+Hω+ν)(ΔX_{t-1}^T A^T H^T+ω^T H^T+ν^T )] \\=E[HAΔX_{t-1} ΔX_(t-1)^T A^T H^T+Hωω^T H^T+νν^T ] \\=HAE[ΔX_{t-1}ΔX_(t-1)^T ] A^T H^T+HE[ωω^T ] H^T+R \\=H(A\hat{\Sigma}_{t-1} A^T+Q) H^T+R=H\bar{\Sigma}_tH^T+R \quad(23)$

$E[ΔX_t ΔY_t^T ]=E[(AΔX_{t-1}+ω) (HAΔX_{t-1}+Hω+ν)^T ] \\=E[(AΔX_{t-1}+ω)(ΔX_{t-1}^T A^T H^T+ω^T H^T+ν^T )] \\=E[AΔX_{t-1} ΔX_{t-1}^T A^T H^T+ωω^T H^T ] \\=AE[ΔX_{t-1}ΔX_{t-1}^T]A^T H^T+E[ωω^T ] H^T ] \\=(AE[ΔX_{t-1}ΔX_{t-1}^T]A^T+E[ωω^T ]]) H^T \\=(A\hat{\Sigma}_{t-1} A^T+Q) H^T=\bar{\Sigma}_t H^T\quad (24)$

$E[ΔY_t ΔX_t^T ]=E[(HAΔX_{t-1}+Hω+ν) (AΔX_{t-1}+ω)^T ] \\=E[(HAΔX_{t-1}+Hω+ν)(ΔX_{t-1}^T A^T+ω^T )] \\=E[HAΔX_{t-1} ΔX_{t-1}^T A^T+Hωω^T ] \\=HE[AΔX_{t-1} ΔX_{t-1}^T A^T+ωω^T ] \\=H(A\hat{\Sigma}_{t-1} A^T+Q)=H\bar{\Sigma}_t\quad (25)$

$\begin{pmatrix} P(X_t│Y_1,⋯Y_{t-1})\\ P(Y_t│Y_1,⋯Y_{t-1}) )\\ \end{pmatrix} \sim N\left(\begin{bmatrix} A\hat{\mu}_{t-1}\\ HA\hat{\mu}_{t-1}\\ \end{bmatrix}, \begin{bmatrix} A\hat{\Sigma}_{t-1} A^T+Q&\bar{\Sigma}_tH^T\\ H\bar{\Sigma}_t&H\bar{\Sigma}_tH^T+R)\\ \end{bmatrix}\right) \quad(26)$
注：给出一个公式：

$\begin{pmatrix} x_1\\ x_2\\ \end{pmatrix} \sim N\left(\begin{bmatrix} μ_1\\ μ_2\\ \end{bmatrix}, \begin{bmatrix} Σ_{11}&Σ_{12}\\ Σ_{21}&Σ_{22}\\ \end{bmatrix}\right) \quad(27)$

$P(x_1│x_2=a)= N(μ_1+Σ_{12}Σ_{22}^{-1}(a-μ_2 ),Σ_{11}-Σ_{12}Σ_{22}^{-1} Σ_{21} ) \quad(28)$

$P(X_t│Y_1,⋯Y_t )= \\= N(A\hat{\mu}_{t-1}+\bar{\Sigma}_t H^T (H\bar{\Sigma}_t H^T+R)^{-1} (Y_t-HA\hat{\mu}_{t-1} ),A\hat{\Sigma}_{t-1} A^T+Q-\bar{\Sigma}_t H^T (H\bar{\Sigma}_t H^T+R)^{-1}H\bar{\Sigma}_t ) \\=N(\bar{\mu}_t+\bar{\Sigma}_tH^T (H\bar{\Sigma}_t H^T+R)^{-1}(Y_t-H\bar{\mu}_t ),\bar{\Sigma}_t -\bar{\Sigma}_t H^T (H\bar{\Sigma}_t H^T+R)^{-1} H\bar{\Sigma}_t ) \quad(29)$

$\begin{cases} \hat{\mu}_t=\bar{\mu}_t+\bar{\Sigma}_tH^T (H\bar{\Sigma}_t H^T+R)^{-1}(Y_t-H\bar{\mu}_t) \\ \hat{\Sigma}_t =\bar{\Sigma}_t -\bar{\Sigma}_t H^T (H\bar{\Sigma}_t H^T+R)^{-1} H\bar{\Sigma}_t )\\ \end{cases} \quad (30)$

化解后得，更新公式：

$K_t=\bar{\Sigma}_t H^T (H\bar{\Sigma}_t H^T+R)^{-1}\quad (31)$

$\hat{\mu}_t=\bar{\mu}_t+\bar{\Sigma}_tH^T (H\bar{\Sigma}_t H^T+R)^{-1}(Y_t-H\bar{\mu}_t)\\=\bar{\mu}_t+K_t (Y_t-H\bar{\mu}_t) \quad (32)$

$\hat{\Sigma}_t =\bar{\Sigma}_t -\bar{\Sigma}_t H^T (H\bar{\Sigma}_t H^T+R)^{-1} H\bar{\Sigma}_t \\=\bar{\Sigma}_t -K_t H\bar{\Sigma}_t (I-K_t H) \bar{\Sigma}_t \quad(33)$

总结一下，至此就推导出了kalman滤波的5个公式：
预测公式：

$\bar{\mu}_t=A\hat{\mu}_{t-1} \quad(18)$

$\bar{\Sigma}_t=A\hat{\Sigma}_{t-1} A^T+Q \quad(19)$
更新公式：
$K_t=\bar{\Sigma}_t H^T (H\bar{\Sigma}_t H^T+R)^{-1}\quad (31)$

$\hat{\mu}_t=\bar{\mu}_t+K_t (Y_t-H\bar{\mu}_t) \quad (32)$

$\hat{\Sigma}_t =(I-K_t H) \bar{\Sigma}_t \quad(33)$

卡尔曼滤波算法的流程图（摘自维基百科）：

卡尔曼滤波算法的流程图

图2：卡尔曼滤波算法流程图

图解卡尔曼滤波算法：

图3通过一个卡尔曼滤波的例子，直观展示了在预测和更新过程中状态变量的概率密度分布的变化情况。

在这里插入图片描述

图3：图解卡尔曼滤波算法

其中， $\hat{x}_{t-1}$ 表示 $t - 1$ 时刻更新的状态， $\bar{x}_{t}$ 表示 $t$ 时刻预测的状态， $y_{t}$ 表示 $t$ 时刻的量测， $\hat{x}_{t}$ 表示 $t$ 时刻更新的状态，图中红色的直线对应的x坐标表示真实的状态。从图3可以看出，经过卡尔曼滤波算法（预测： $\hat{x}_{t-1}$ $- - >$ $\bar{x}_{t}$ ；更新： $\hat{x}_{t-1}$ ， $y_{t}$ $- - >$ $\hat{x}_{t}$ ）更新过后的状态将更加接近于真实的状态。

参考资料

徐亦达机器学习：Kalman Filter 卡尔曼滤波

snushe♤

关注

6
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
滤波系列（一）卡尔曼滤波算法（KF）：详细数学推导

滤波系列（一）卡尔曼滤波算法（KF）KF推导KF的概率图模型其中 xtx_txt 表示隐状态，yty_tyt 表示量测，黑色的箭头表示状态转移，红色的箭头表示测量，P(xt│xt−1)P(x_t│x_{t-1})P(xt│xt−1) 为状态转移的概率，P(yt│xt)P(y_t│x_t )P(yt│xt)为量测概率。...
复制链接

扫一扫