线性动态系统中的概率求解

篝火者2312

已于 2024-05-17 20:57:47 修改

阅读量386

点赞数 2

文章标签： 1024程序员节概率论线性代数机器学习

于 2023-10-24 21:02:29 首次发布

本文链接：https://blog.csdn.net/sdksdf/article/details/134021686

版权

文章目录

前言

在机器学习的线性动态系统（卡尔曼滤波）中，会有两个随机变量之间存在某种线性关系。下面我们来探讨那些情况下如何求解概率分布的参数。看在这篇文章之前，请确保你有较为扎实概率论的基础，否则可能阅读起来有点困难，我会尽量不跳步，讲得通俗些。
数学基础：【概率论与数理统计知识复习-哔哩哔哩】

原理推导

假设
$\begin{equation} \begin{aligned} \\&P(x)\sim N(x|\mu_x,\Sigma_x) \\&P(y|x) \sim N(y|Ax+B,Q) \nonumber \end{aligned} \end{equation}$
什么意思呢？就是对随机变量 $x$ 服从期望为 $\mu_x$ ，协方差矩阵 $\Sigma_x$ 的正态分布，而对于随机变量 $y ∣ x$ ，其服从期望为 $A x + B$ ，协方差矩阵为 $Q$ 的正态分布

本篇文章就两个问题，在给定上述条件的情况下

①随机变量 $y$ ，它的期望和协方差矩阵是什么？

②随机联合变量 $x, y$ ，它的期望和协方差矩阵是什么？

③随机变量 $x ∣ y$ ，它的期望和协方差矩阵是什么？

我们的目标就是求解这两个问题

在求解之前，我们先看看能由上述条件得出些什么隐含的东西

等价变换

其实由随机变量 $x$ 和 $y ∣ x$ 之间的关系，可以等价得出随机变量 $y$ 与 $x$ 的关系式
$\left\{\begin{matrix} P(x)\sim N(x|\mu,\Sigma) \\P(y|x) \sim N(y|Ax+B,Q) \end{matrix}\right. \Leftrightarrow \left\{\begin{matrix} y=Ax+B+u \end{matrix}\right.$
其中 $x$ ， $u$ 是随机变量，并且他们相互独立。而 $\sim N(0,Q)$ 。N是正态分布的意思。

你可能会好奇，为什么会等价于那个式子？我们可以通过这个式子反推出随机变量 $y ∣ x$ 的期望和协方差矩阵，如果一样，则证明等价成立

对于随机变量 $y ∣ x$ ，可以简单理解为是随机变量 $x$ 是给定了某个值的，所以 $x$ 也就不再是一个随机变量，而是一个常数。为了避免混淆，我们用随机变量 $y|x^*$ 来表示随机变量 $y ∣ x$ ，即 $y|x =y|x^*$

现在我们作等价性推导，因为
$y = A x + B + u$
所以在随机变量后面都加上条件，自然得出
$y|x^*=A(x|x^*)+B+u$
$x|x^*$ 是什么意思呢？可以理解为随机变量x给定取值 $x^*$ ，我们不妨直接用 $x^*$ 来代替，所以 $x^*$ 不再是一个随机变量，而是一个给定的某个数，即
$y|x^*=Ax^*+B+u$
所以期望
$\begin{equation} \begin{aligned} \mu=E[y|x^*]=&E[Ax^*+B+u] \\=&E\left[Ax^*+B\right]+E[u] \\=&Ax^*+B+0 \\=&Ax^*+B \nonumber \end{aligned} \end{equation}$
第二到第三个等号是因为常数的均值为常数本身，随机变量 $u$ 期望前面定为0。

协方差矩阵
$\begin{equation} \begin{aligned} \Sigma=&E\left[(y|x^*-\mu)(y|x^*-\mu)^T\right] \\=&E\left[(y|x^*-Ax^*-B)(y|x^*-Ax^*-B)^T\right] \\=&E\left[(Ax^*+B+u-Ax^*-B)(Ax^*+B+u-Ax^*-B)^T\right] \\=&E\left[uu^T\right] \\=&Q \nonumber \end{aligned} \end{equation}$
第四个到第五个等号是因为随机变量u的期望是0，所以这就是协方差矩阵的公式，也就是随机变量u的协方差，前面设为Q。

所以我们就得到了随机变量 $y|x^*\sim N(Ax^*+B,Q)$

再把 $x^*$ 换回 $x$ （但请务必记住在 $y ∣ x$ 中的x是给定的某个值，不是随机变量） $\sim N(y|Ax+B,Q)$

所以和反推出来的结果一摸一样。所以我们可得到
$y=Ax+B+u\tag{1}$

求解P(y)

由正态分布的性质和式（1）可知，随机变量y依然服从正态分布，所以我们只需要求解出其对应的期望和协方差矩阵即可

设其期望和协方差矩阵分别是 $\mu_y，\Sigma_y$
$\begin{equation} \begin{aligned} \mu_y=E[y]=&E[Ax+B+u] \\=&E[Ax]+E[B]+E[u] \\=&AE[x]+B+0 \\=&A\mu_x+B \nonumber \end{aligned} \end{equation}$
请注意，与随机变量 $y ∣ x$ 中x是给定的常量不同，随机变量 $y$ 对应的x也是随机变量。

接下来求解协方差矩阵（利用协方差矩阵的公式）
$\begin{equation} \begin{aligned} \Sigma_y=&E\left[(y-\mu_y)(y-\mu_y)^T\right] \\=&E\left[(Ax+B+u-A\mu_x-B)(Ax+B+u-A\mu_x-B)^T\right] \\=&E\left[(A(x-\mu_x)+u)(A(x-\mu_x)+u)^T\right] \\=&E\left[A(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[A(x-\mu_x)u^T\right]+E\left[u(x-\mu_x)^TA^T\right]+E\left[uu^T\right] \nonumber \end{aligned} \end{equation}$
第一个到第二个等号就是把y的等式和 $\mu_y$ 等式往里面带，第三到第四个等号利用的是乘法分配律（请记住这些方法，因为下面的推导几乎都是重复这一个过程，后面就不作解释了）。我们来看其中一项 $E\left[A(x-\mu_x)u^T\right]$ ，将里面按等号拆成两项
$E\left[A(x-\mu_x)u^T\right]=AE\left[xu^T\right]-A\mu_x E\left[u^T\right]$
对于随机变量x和随机变量u，我们前面假设过他们相互独立的，依据期望的性质，可得
$\begin{equation} \begin{aligned} E\left[A(x-\mu_x)u^T\right]=&AE\left[x\right]E\left[u^T\right]-A\mu_x E\left[u^T\right] \\=&A*\mu_x*0-A*\mu_x*0 \\=&0 \nonumber \end{aligned} \end{equation}$
同样因为 $E\left[u(x-\mu)^TA^T\right]$ 与 $E\left[A(x-\mu)u^T\right]$ 互为转置，所以也是等于0

那么最终协方差矩阵就变成了
$\begin{equation} \begin{aligned} \Sigma_y=&E\left[A(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[uu^T\right] \\=&AE[(x-\mu_x)(x-\mu_x)^T]A^T+E\left[uu^T\right] \\=&A\Sigma_x A^T+Q \nonumber \end{aligned} \end{equation}$
所以我们得到
$\sim N(y|A\mu+B,A\Sigma A^T+Q)$

求解P(x,y)

对于这一部分，如何证明它们的联合概率是高斯，看课本或者结尾的参考，建议看参考，课本省略了很多步骤。所以我们只需要求出联合随机变量 $x, y$ 的期望和协方差矩阵即可
$\sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix}$
其中， $\mu_x$ 表示随机变量x的期望，以此类推。而 $\Sigma_{xx}$ 代表随机变量x的协方差矩阵， $\Sigma_{xy}$ 代表随机变量x和y的协方差矩阵，以此类推。

前面，我们已经求出了随机变量y的参数了，再加上给定的随机变量x的参数，最终得到
$\sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_{xy} \\ \Sigma_{yx} & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix}$
依据协方差矩阵的对称性 $\Sigma_{xy}=\Sigma_{yx}$ ，所以我们只需要求出其中一个就可以了
$\begin{equation} \begin{aligned} \Sigma_{xy}=&E[(x-\mu_x)(y-\mu_y)^T] \\=&E\left[(x-\mu_x)(y-A\mu_x-B)^T\right] \\=&E\left[(x-\mu_x)(Ax+B+u-A\mu_x-B)^T\right] \\=&E\left[(x-\mu_x)(A(x-\mu_x)+u)^T\right] \\=&E\left[(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[(x-\mu_x)u^T\right] \\=&E\left[(x-\mu_x)(x-\mu_x)^T\right]A^T+(x-\mu_x)E[u^T] \\=&\Sigma_xA^T+0 \\=&\Sigma_xA^T \nonumber \end{aligned} \end{equation}$
所以
$\sim N\begin{pmatrix} \begin{matrix} x , y \end{matrix}| \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_xA^T \\ A\Sigma_x & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix}$

求解P(x|y)

由正态分布的性质可知，条件概率分布依然服从正态分布，所以我们只需要求出随机变量 $x ∣ y$ 的期望和协方差矩阵即可

对于这个条件概率，我们利用一种相对较为简单的求法。

我们在联合概率里面计算出过随机变量 $x, y$ 的参数。为了表达的简便，我们先暂时将其用初始符号表达，即
$\sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix}$
如果联合概率是上式，那么对于条件概率 $P (x ∣ y)$ ，则

怎么得出来得呢？下面我们进行推导

我们先构造一个随机变量 $k_{xy}$ ，令
$k_{xy}=x-\Sigma_{xy}\Sigma_{yy}^{-1}y$
为什么要这样构造？可能算是一种技巧吧。总之后面我们可以证明它和随机变量y相互独立，然后就可以求出 $P (x ∣ y)$

设其期望和协方差矩阵分别是 $\mu_k,\Sigma_k$ ，则期望
$\begin{equation} \begin{aligned} \mu_k=&E[k_{xy}] \\=&E\left[x-\Sigma_{xy}\Sigma_{yy}^{-1}y\right] \\=&E[x]-\Sigma_{xy}\Sigma_{yy}^{-1}E[y] \\=&\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y \nonumber \end{aligned} \end{equation}$
协方差矩阵
$\begin{equation} \begin{aligned} \Sigma_k=&E\left[(k_{xy}-\mu_k)(k_{xy}-\mu_k)^T\right] \\=&E\left[(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)^T\right] \\=&E\left[(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(x-\mu_x))(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(x-\mu_x))^T\right] \\=&E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(\mu_y-y)^T\Sigma_{yy}^{-1}\Sigma_{xy}\right]+E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(\mu_x-x)^T\right]+ \\&E\left[(\mu_x-x)(\mu_y-y)^T\Sigma_{yy}^{-1}\Sigma_{xy}\right]+E\left[(x-\mu_x)(x-\mu_x)\right] \\=&\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yy}\Sigma_{yy}^{-1}\Sigma_{xy}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{xy}+\Sigma_{xx} \\=&\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx} \nonumber \end{aligned} \end{equation}$
下面我们来证明随机变量 $k_{xy}$ 和 $y$ 的独立性
$\begin{equation} \begin{aligned} Cov(k_{xy},x)=&E\left[(k_{xy}-\mu_k)(y-\mu_y)^T\right] \\=&E\left[(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)(y-\mu_y)^T\right] \\=&E\left[(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(y-\mu_x))(y-\mu_y)^T\right] \\=&E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(y-\mu_y)^T\right]+E\left[(y-\mu_x)(y-\mu_y)^T\right] \\=&-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yy}+\Sigma_{xy} \\=&-\Sigma_{xy}+\Sigma_{xy} \\=&0 \nonumber \end{aligned} \end{equation}$
所以随机变量 $k_{xy}$ 和y相互独立

所以
$k_{xy}|y\rightarrow k_{xy}$

由
$k_{xy}=x-\Sigma_{xy}\Sigma_{yy}^{-1}y$
得
$x=k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y$
所以
$\begin{equation} \begin{aligned} x|y=&k_{x,y}|y+\Sigma_{xy}\Sigma_{yy}^{-1}y|y \\=&k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y\nonumber \end{aligned} \end{equation}$
请注意了，后面的的 $y$ 实际上已经不是随机变量了（因为 $x ∣ y$ 中y是给定的），避免混淆，我们用 $y^*$ 代替
$x|y^*=k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*$
现在只需要求出它的期望和协方差矩阵即可，设为 $\mu_{x|y},\Sigma_{x|y}$
$\begin{equation} \begin{aligned} \mu_{x|y}=E\left[x|y^*\right]=&E\left[k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*\right] \\=&E\left[k_{xy}\right]+\Sigma_{xy}\Sigma_{yy}^{-1}y^* \\=&\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y^*\nonumber \end{aligned} \end{equation}$

$\begin{equation} \begin{aligned} \Sigma_{x|y}=&E\left[(x|y^*-\mu_{x|y})(x|y^*-\mu_{x|y})^T\right] \\=&E\left[(k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*-\mu_k-\Sigma_{xy}\Sigma_{yy}^{-1}y^*)(k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*-\mu_k-\Sigma_{xy}\Sigma_{yy}^{-1}y^*)^T\right] \\=&E\left[(k_{xy}-\mu_k)(k_{xy}-\mu_k)^T\right] \\=&\Sigma_k\nonumber \end{aligned} \end{equation}$

将 $y^*$ 变回 $y$ ，最终得到
$\sim N(x|\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y,\Sigma_k)$
其中 $\mu_k=\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y$ ， $\Sigma_k=\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx}$

所以，从这里你可以看出，就算是没有前面的线性随机变量的关系条件，我们仍然可以求出正太联合概率分布的条件概率，我们只需要知道它的联合概率分布的参数即可，我们可以将其当作一个模板。

我们在求解 $P (x, y)$ 的时候已经将参数求了出来，我们只需要将里面的 $P (x ∣ y)$ 里面对应位置的值进行代换即可。在这里笔者就不去代换了

结论

从我们推导出来的结果来看，实际上我们可以分为两个结论：

①给定
$\left\{\begin{matrix} P(x)\sim N(x|\mu_x,\Sigma_x) \\P(y|x) \sim N(y|Ax+B,Q) \end{matrix}\right.$
可得
$\left\{\begin{matrix}y=Ax+B+u \\ P(y) \sim N(y|A\mu_x+B,A\Sigma_x A^T+Q) \\ P(x,y) \sim N\begin{pmatrix} \begin{matrix} x , y \end{matrix}| \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_xA^T \\ A\Sigma_x & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix} \end{matrix}\right.$
②给定
$\sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix}$
可得
$\sim N(x|\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y,\Sigma_k)$
其中 $\mu_k=\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y$ ， $\Sigma_k=\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx}$