【超详细的贝叶斯滤波原理】（不看后悔）

小梁爱健身

已于 2022-11-17 20:58:43 修改

阅读量2k

点赞数 9

分类专栏：信号处理文章标签：概率论人工智能

于 2022-11-17 15:17:55 首次发布

原文链接：https://blog.shipengx.com/archives/9fb25cec.html

版权

信号处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

贝叶斯公式

二维离散型随机变量的贝叶斯公式

对于二维离散型随机变量 $(X, Y)$ ，由其条件概率质量函数与全概率公式，容易得到其贝叶斯公式:
$f_{X \mid Y}(x \mid y)=\frac{f_{X, Y}(x, y)}{f_{Y}(y)}=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{\sum_{i=1}^{\infty} f_{Y \mid X}\left(y \mid x_{i}\right) f_{X}\left(x_{i}\right)},(x, y) \in\left\{x_{i}, y_{j}\right\}, i, j=1,2,3, \cdots$
二维离散型随机变量的贝叶斯公式可通过作图的方式轻松证得。

二维连续型随机变量的贝叶斯公式

结论

对于二维连续型随机变量 $(X, Y)$ ，由其条件概率密度函数与全概率公式，容易得到其贝叶斯公式：
$f_{X \mid Y}(x \mid y)=\frac{f_{X, Y}(x, y)}{f_{Y}(y)}=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{\sum_{i=1}^{\infty} f_{Y \mid X}\left(y \mid x_{i}\right) f_{X}\left(x_{i}\right)}$

推导

二维连续型随机变量的贝叶斯公式无法通过作图的方式推得，下面进行公式推导，首先计算二维连续型随机变量的条件累积分布函数：
$\begin{aligned} F_{X \mid Y}(x \mid y) &=P(X \leq x \mid Y=y) \\ &=\sum_{u=-\infty}^{x} P(X=u \mid Y=y) \Rightarrow \text { 化连续为离散无穷小的累加 } \\ &=\sum_{u=-\infty}^{x} \frac{P(Y=y \mid X=u) P(X=u)}{P(Y=y)} \Rightarrow \text { 二维离散型随机变量的贝 } \\ &=\lim _{\epsilon \rightarrow 0} \sum_{u=-\infty}^{x} \frac{P(y \leq Y \leq y+\epsilon \mid X=u) P(u \leq X \leq u+\epsilon)}{P(y \leq Y \leq y+\epsilon)} \Rightarrow \text { 化无穷小为极限形式 } \\ &=\lim _{\epsilon \rightarrow 0} \sum_{u=-\infty}^{x} \frac{\left[F_{Y \mid X}(y+\epsilon \mid u)-F_{Y \mid X}(y \mid u)\right]\left[F_{X}(u+\epsilon)-F_{X}(u)\right]}{F_{Y}(y+\epsilon)-F_{Y}(y)} \Rightarrow \text{分布函数性质}\\ &=\lim _{\epsilon \rightarrow 0} \sum_{u=-\infty}^{x} \frac{\left[f_{Y \mid X}\left(\xi_{1} \mid u\right) \cdot \epsilon\right]\left[f_{X}\left(\xi_{2}\right) \cdot \epsilon\right]}{f_{Y}\left(\xi_{3}\right) \cdot \epsilon} \Rightarrow \text { 拉格朗日中值定理, } \xi_{1}, \xi_{3} \in(y, y+\epsilon), \quad \xi_{2} \in(u, u+\epsilon) \\ &=\lim _{\epsilon \rightarrow 0} \sum_{u=-\infty}^{x} \frac{f_{Y \mid X}(y \mid u) f_{X}(u)}{f_{Y}(y)} \cdot \epsilon \quad \Rightarrow \epsilon \rightarrow 0 \text { 时, } \xi_{1} \rightarrow y, \quad \xi_{2} \rightarrow u, \quad \xi_{3} \rightarrow y\\ &=\int_{-\infty}^{x} \frac{f_{Y \mid X}(y \mid u) f_{X}(u)}{f_{Y}(y)} \mathrm{d} u \Rightarrow \text { 积分定义 } \\ &=\int_{-\infty}^{x} \frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{f_{Y}(y)} \mathrm{d} x \quad \Rightarrow \text { 替换自变量符号 } u \text { 为 } x \end{aligned}$
故，二维连续型随机变量的条件概率密度函数为：
$f_{X \mid Y}(x \mid y)=\frac{\mathrm{d} F_{X \mid Y}(x \mid y)}{\mathrm{d} x}=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{f_{Y}(y)}$
代入全概率公式：
$f_{X \mid Y}(x \mid y)=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{\int_{-\infty}^{+\infty} f_{Y \mid X}(y \mid x) f_{X}(x) \mathrm{d} x}$
上式即为二维连续型随机变量的贝叶斯公式。

先验概率、似然概率与后验概率

在二维连续型随机变量的贝叶斯公式中，有如下定义：

$f_{X}(x)$ 被称为先验概率密度（Prior Probability Density），表示根据以往的经验和分析，在本次试验或采样前便可获得的随机变量 $X$ 的概率密度；
$f_{Y|X}(y|x)$ 被称为似然概率密度（Likelihood Probability Density），表示在状态随机变量 $X$ 取值为 $x$ 的条件下，观测随机变量 $Y$ 取值为 $y$ 的概率密度，状态为因，观测为果，即由因推果；
$f_{X|Y}(x|y)$ 被成为后验概率密度（Posterior Probability Density），表示在观测随机变量 $Y$ 取值为 $y$ 的条件下，状态随机变量 $X$ 取值为 $x$ 的概率密度，状态为因，观测为果，即由果推因。
此外，当 $y$ 为定值时， $\eta=\left[\int_{-\infty}^{+\infty} f_{Y \mid X}(y \mid x) f_{X}(x) \mathrm{d} x\right]^{-1}$ 为一常数，常被称为贝叶斯公式的归一化常数。
因此，二维连续型随机变量的贝叶斯公式可表示为：
$后验概率密度=\eta×似然概率密度×先验概率密度$

再谈似然概率

上文中提到，似然概率密度函数 $f_{Y|X}(y|x)$ 表示在状态随机变量 $X$ 取值为 $x$ 的条件下，观测随机变量 $Y$ 取值为 $y$ 的概率密度。似然概率密度函数表征了传感器检测精度，对于给定的状态条件 $X = x$ ，观测结果 $Y = y$ 的概率分布通常有三种模型：

等可能型
观测值在状态量真值附近呈均匀分布，此时的似然概率密度函数为常数。
阶梯型
观测值在状态量真值附近呈阶梯分布，此时的似然概率密度函数为分段常数。
正态分布型
观测值在状态量真值附近呈高斯分布，此时的似然概率密度函数为高斯函数：
$f_{Y \mid X}(y \mid x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(y-x)^{2}}{2 \sigma^{2}}}$
若假定似然概率密度函数为高斯函数，此时，似然概率密度函数的均值 $x$ 代表状态量真值， $\sigma$ 代表传感器检测精度范围。若同时假定先验概率密度函数为高斯函数，即：
$f_{X}(x) \sim \mathcal{N}\left(\mu_{1}, \sigma_{1}^{2}\right), \quad f_{Y \mid X}(y \mid x) \sim \mathcal{N}\left(\mu_{2}, \sigma_{2}^{2}\right)$
则
$f_{X \mid Y}(x \mid y) \sim \mathcal{N}\left(\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}} \mu_{1}+\frac{\sigma_{1}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}} \mu_{2}, \frac{\sigma_{1}^{2} \sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}\right)$
由于
$\frac{\sigma_{1}^{2} \sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}=\frac{\sigma_{1}^{2}}{1+\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}}<\sigma_{1}^{2}$
且
$\frac{\sigma_{1}^{2} \sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}=\frac{\sigma_{2}^{2}}{1+\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}}}<\sigma_{2}^{2}$
故，后验概率密度函数方差既小于先验概率密度函数方差，也小于似然概率密度函数方差，系统不确定度降低。
若 $\sigma_{1}^{2} \gg \sigma_{2}^{2}$ ，则近似有：
$f_{X \mid Y}(x \mid y) \sim \mathcal{N}\left(\mu_{2}, \sigma_{2}^{2}\right)$
此时，后验倾向于观测。
若 $\sigma_{1}^{2} \ll \sigma_{2}^{2}$ ，则近似有：
$f_{X \mid Y}(x \mid y) \sim \mathcal{N}\left(\mu_{1}, \sigma_{1}^{2}\right)$
此时，后验倾向于先验。

贝叶斯滤波推导

问题建模

问题描述
对于某状态量随机变量 $X$ ，从初始时刻 $0$ 开始，对其进行观测，得到 $0 - k$ 时刻的观测值：
$y_0, y_1, y_2, \cdots, y_k$
求解 $k$ 时刻状态量随机变量 $X_{k}$ 的最优估计 $\hat{x}_{k}$ 。
求解思路
以贝叶斯公式为求解方向，将问题转化为求解状态量随机变量 $X_{k}$ 后验概率密度函数的期望：
$\hat{x}_k=E\left[f_{X_k}^{+}(x)\right]$
进而需要求解状态量随机变量 $X_{k}$ 的先验概率密度函数与似然概率密度函数。我们认为， $k$ 时刻的状态量随机变量 $X_{k}$ 与且仅与上一时刻的状态量随机变量 $X_{k-1}$ 有关， $k$ 时刻的观测量随机变量 $Y_{k}$ 与且仅与 $k$ 时刻的状态量随机变量 $X_{k}$ 有关，其中的数量关系我们分别称之为状态方程与观测方程：
$\left\{\begin{array}{l}X_k =f\left(X_{k-1}\right)+Q_k \quad \Rightarrow \text { 状态方程 } \\ Y_k = h\left(X_k\right)+R_k \quad \Rightarrow \text { 观测方程 }\end{array}\right.$
$f (x)$ 被称为状态转移函数， $h (x)$ 被称为观测函数。
对于 0 时刻的初始状态量随机变量 $X_0$ ，认为观测值 $y_0$ 即为其真值，其后验概率密度函数即为其先验概率密度函数。我们可以根据经验知识（建模精度和传感器精度）写出 0 时刻的初始状态量随机变量 $X_0$ 的后验概率密度函数 $f^+_{X_0}(x)$ 、 $k$ 时刻过程噪声随机变量 $Q_k$ 的概率密度函数 $f_{Q_k}(x)$ 和 $k$ 时刻观测噪声随机变量 $R_k$ 的概率密度函数 $f_{R_k}(x)$ 。
符号定义

各时刻的状态量随机变量
$X_0, X_1, X_2, \cdots, X_k$
各时刻的观测量随机变量
$Y_0, Y_1, Y_2, \cdots, Y_k$
各时刻的观测值
$y_0, y_1, y_2, \cdots, y_k$
各时刻的过程噪声随机变量
$Q_1, Q_2, \cdots, Q_k$
各时刻的观测噪声随机变量
$R_1, R_2, \cdots, R_k$
各时刻的过程噪声随机变量概率密度函数
$f_{Q_1}(x), f_{Q_2}(x), \cdots, f_{Q_k}(x)$
各时刻的观测噪声随机变量概率密度函数
$f_{R_1}(x), f_{R_2}(x), \cdots, f_{R_k}(x)$
各时刻的状态量随机变量先验概率密度函数
$f_{X_0}^{-}(x), f_{X_1}^{-}(x), f_{X_2}^{-}(x), \cdots, f_{X_k}^{-}(x)$
各时刻的状态量随机变量后验概率密度函数
$f_{X_0}^{-}(x), f_{X_1}^{+}(x), f_{X_2}^{+}(x), \cdots, f_{X_k}^{+}(x)$
各时刻状态量随机变量与观测量随机变量的似然概率密度函数
$f_{X_0}^{-}(x), f_{X_1}^{+}(x), f_{X_2}^{+}(x), \cdots, f_{X_k}^{+}(x)$

重要假设

$X_0$ 分别与 $Q_1, Q_2, \cdots, Q_k$ 相互独立；
$X_0$ 分别与 $R_1, R_2, \cdots, R_k$ 相互独立；
$X_{k-1}$ 与 $Q_k$ 相互独立；
$X_{k}$ 与 $R_k$ 相互独立。

重要定理
条件概率里的条件可以作逻辑推导。例如：
$\mid Y=2, Z=3)=P(X+Y=3 \mid Y=2, Z=3)=P(X+Y=3 \mid Y=2, Z-Y=1)$

预测步推导

已知 0 时刻状态量随机变量 $X_0$ 的后验概率密度函数 $f^+_{X_0}(x)$ ，状态转移函数 $f (x)$ ，1 时刻过程噪声随机变量 $Q_1$ 的概率密度函数 $f_{Q_1}(x)$ ，求解 1 时刻状态量随机变量 X1 的先验概率密度函数 $f^-_{X_1}(x)$ 。
类似二维连续型随机变量贝叶斯公式的推导过程，我们从求解 X1 的先验累积分布函数 $F^−_{X_1}$ 入手。

$=\sum_{u=-\infty}^x \sum_{v=-\infty}^{+\infty} P\left(X_1=u \mid X_0=v\right) P\left(X_0=v\right)$

故，1 时刻状态量随机变量 $X_1$ 的先验概率密度函数为：
$f_{X_1}^{-}(x)=\frac{\mathrm{d} F_{X_1}^{-}(x)}{\mathrm{d} x}=\int_{-\infty}^{+\infty} f_{Q_1}[x-f(v)] f_{X_0}^{-}(v) \mathrm{d} v$
推导完毕。可以发现，先验概率密度函数本质来源于状态方程。

更新步推导

已知 1 时刻观测量随机变量 $Y_1$ 的取值 $y_1$ ，求解 1 时刻状态量随机变量与观测量随机变量的似然概率密度函数 $f_{Y_1|X_1}(y_1 | x)$ ，并联合预测步得到的 1 时刻状态量随机变量 $X_1$ 的先验概率密度函数 $f^−_{X_1}(x)$ ，求解 1 时刻状态量随机变量 $X_1$ 的后验概率密度函数 $f^+_{X_1}(x)$ 。
首先，求解似然概率密度函数 $f_{Y_1|X_1}(y_1 | x)$ ：
$KaTeX parse error: Expected 'EOF', got '&' at position 41: … \mid x\right) &̲=\lim _{\epsilo…$

可以发现，似然概率密度函数本质来源于观测方程。
然后，联合预测步得到的 1 时刻状态量随机变量 $X_1$ 的先验概率密度函数 $f^−_{X_1}(x)$ ，求解 1 时刻状态量随机变量 $X_1$ 的后验概率密度函数 $f^+_{X_1}(x)$ ：
$f_{X_1}^{-}(x)=\eta_1 \cdot f_{Y_1 \mid X_1}\left(y_1 \mid x\right) \cdot f_{X_1}^{-}(x)=\eta_1 \cdot f_{R_1}\left[y_1-h(x)\right] \cdot f_{X_1}^{-}(x)$
其中，归一化常数 $\eta_1$ 为：
$\eta_1=\left[\int_{-\infty}^{+\infty} f_{Y_1 \mid X_1}\left(y_1 \mid x\right) f_{X_1}^{-}(x) \mathrm{d} x\right]^{-1}=\left\{\int_{-\infty}^{+\infty} f_{R_1}\left[y_1-h(x)\right] f_{X_1}^{-}(x) \mathrm{d} x\right\}^{-1}$

递推流程

由预测步和更新步的推导结果，可得到由 0 时刻状态量随机变量 $X_0$ 的后验概率密度函数 $f^+_{X_0}(x)$ 到 $k$ 时刻状态量随机变量 $X_k$ 的后验概率密度函数 $f^+_{X_k}(x)$ 的递推流程：
$f_{X_0}^{-}(x) \stackrel{预测}{\Longrightarrow} f_{X_1}^{-}(x)=\int_{-\infty}^{-\infty} f_{Q_1}[x-f(v)] f_{X_0}^{+}(v) \mathrm{d} v \stackrel{观测更新}{\Longrightarrow} f_{X_1}^{+}(x)=\eta_1 \cdot f_{R_1}\left[y_1-h(x)\right]\cdot f_{X_1}^{-}(x)\\ \stackrel{预测}{\Longrightarrow} f_{X_2}^{-}(x)=\int_{-\infty}^{-\infty} f_{Q_2}[x-f(v)] f_{X_1}^{+}(v) \mathrm{d} v \stackrel{观测更新}{\Longrightarrow} f_{X_2}^{+}(x)=\eta_2 \cdot f_{R_2}\left[y_2-h(x)\right] \cdot f_{X_2}^{-}(x) \\ \cdots \\ \stackrel{预测}{\Longrightarrow} f_{X_k}^{-}(x)=\int_{-\infty}^{-\infty} f_{Q_k}[x-f(v)] f_{X_{k-1}}^{+}(v) \mathrm{d} v \stackrel{观测更新}{\Longrightarrow}f_{X_k}^{+}(x)=\eta_k \cdot f_{R_k}\left[y_k-h(x)\right] \cdot f_{X_k}^{-}(x)$

其中，归一化常数 $\eta_k$ 为：
$\eta_k=\left\{\int_{-\infty}^{+\infty} f_{R_k}\left[y_k-h(x)\right] f_{X_k}^{-}(x) \mathrm{d} x\right\}^{-1}$
最终，可得到 $k$ 时刻状态量随机变量 $X_k$ 的最优估计 $\hat{x}_k$ ：
$\hat{x}_k=E\left[f_{X_k}^{+}(x)\right]=\int_{-\infty}^{-\infty} x f_{X_k}^{-}(x) \mathrm{d} x$

完整算法框架

设初值
初始 0 时刻状态量随机变量 $X_0$ 的后验概率密度函数：
$f_{X_0}^+(x)$
预测步
$k$ 时刻状态量随机变量 $X_k$ 的先验概率密度函数：
$f_{X_k}^{-}(x)=\int_{-\infty}^{+\infty} f_{Q_k k}[x-f(v)] f_{X_{k-1}}^{+}(v) \mathrm{d} v$
更新步
$k$ 时刻状态量随机变量 $X_k$ 的后验概率密度函数：
$f_{X_k}^{+}(x)=\eta_k \cdot f_{R_k}\left[y_k-h(x)\right] \cdot f_{X_k}^{-}(x)$
归一化常数 $\eta_k$ ：
$\eta_k=\left\{\int_{-\infty}^{+\infty} f_{R_k}\left[y_k-h(x)\right] f_{X_k}^{-}(x) \mathrm{d} x\right\}^{-1}$
求解状态量后验估计
$k$ 时刻状态量随机变量 $X_k$ 的后验估计：
$\hat{x}_k^{-}=E\left[f_{X_k}^{+}(x)\right]=\int_{-\infty}^{-\infty} x f_{X_k}^{-}(x) \mathrm{d} x$

贝叶斯滤波的缺点及解决方法

缺点

从上文的推导及结论中可以发现，求解预测步中的先验概率密度函数 $f_{X_k}^-(x)$ 、更新步中的归一化常数 $\eta_k$ 、最终的最优估计 $\hat{x}^k$ 时均涉及到无穷积分，而大多数情况无法得到解析解，使得贝叶斯滤波算法的直接应用十分困难。

解决办法

为了解决贝叶斯滤波中的无穷积分问题，通常从两个角度出发:

作理想假设

假设状态转移函数 $f (x)$ 和观测函数 $h (x)$ 均为线性函数，过程噪声随机变量 $Q_k$ 和观测噪声随机变量 $R_k$ 均服从均值为 0 的正态分布——卡尔曼滤波（Kalman Filter）
假设状态转移函数 $f (x)$ 和（或）观测函数 $h (x)$ 为非线性函数，过程噪声随机变量 $Q_k$ 和观测噪声随机变量 $R_k$ 均服从均值为 0 的正态分布——扩展卡尔曼滤波（Extended Kalman Filter）和无迹卡尔曼滤波（Unscented Kalman Filter）