线性动态系统中的概率求解

前言

在机器学习的线性动态系统(卡尔曼滤波)中,会有两个随机变量之间存在某种线性关系。下面我们来探讨那些情况下如何求解概率分布的参数。看在这篇文章之前,请确保你有较为扎实概率论的基础,否则可能阅读起来有点困难,我会尽量不跳步,讲得通俗些。
数学基础:【概率论与数理统计知识复习-哔哩哔哩】

原理推导

假设
P ( x ) ∼ N ( x ∣ μ x , Σ x ) P ( y ∣ x ) ∼ N ( y ∣ A x + B , Q ) \begin{equation} \begin{aligned} \\&P(x)\sim N(x|\mu_x,\Sigma_x) \\&P(y|x) \sim N(y|Ax+B,Q) \nonumber \end{aligned} \end{equation} P(x)N(xμx,Σx)P(yx)N(yAx+B,Q)
什么意思呢?就是对随机变量 x x x服从期望为 μ x \mu_x μx,协方差矩阵 Σ x \Sigma_x Σx的正态分布,而对于随机变量 y ∣ x y|x yx,其服从期望为 A x + B Ax+B Ax+B,协方差矩阵为 Q Q Q的正态分布

本篇文章就两个问题,在给定上述条件的情况下

①随机变量 y y y,它的期望和协方差矩阵是什么?

②随机联合变量 x , y x,y x,y,它的期望和协方差矩阵是什么?

③随机变量 x ∣ y x|y xy,它的期望和协方差矩阵是什么?

我们的目标就是求解这两个问题

在求解之前,我们先看看能由上述条件得出些什么隐含的东西

等价变换

其实由随机变量 x x x y ∣ x y|x yx之间的关系,可以等价得出随机变量 y y y x x x的关系式
{ P ( x ) ∼ N ( x ∣ μ , Σ ) P ( y ∣ x ) ∼ N ( y ∣ A x + B , Q ) ⇔ { y = A x + B + u \left\{\begin{matrix} P(x)\sim N(x|\mu,\Sigma) \\P(y|x) \sim N(y|Ax+B,Q) \end{matrix}\right. \Leftrightarrow \left\{\begin{matrix} y=Ax+B+u \end{matrix}\right. {P(x)N(xμ,Σ)P(yx)N(yAx+B,Q){y=Ax+B+u
其中 x x x u u u是随机变量,并且他们相互独立。而 u ∼ N ( 0 , Q ) u \sim N(0,Q) uN(0,Q)。N是正态分布的意思。

你可能会好奇,为什么会等价于那个式子?我们可以通过这个式子反推出随机变量 y ∣ x y|x yx的期望和协方差矩阵,如果一样,则证明等价成立

对于随机变量 y ∣ x y|x yx,可以简单理解为是随机变量 x x x是给定了某个值的,所以 x x x也就不再是一个随机变量,而是一个常数。为了避免混淆,我们用随机变量 y ∣ x ∗ y|x^* yx来表示随机变量 y ∣ x y|x yx,即 y ∣ x = y ∣ x ∗ y|x =y|x^* yx=yx

现在我们作等价性推导,因为
y = A x + B + u y=Ax+B+u y=Ax+B+u
所以在随机变量后面都加上条件,自然得出
y ∣ x ∗ = A ( x ∣ x ∗ ) + B + u y|x^*=A(x|x^*)+B+u yx=A(xx)+B+u
x ∣ x ∗ x|x^* xx是什么意思呢?可以理解为随机变量x给定取值 x ∗ x^* x,我们不妨直接用 x ∗ x^* x来代替,所以 x ∗ x^* x不再是一个随机变量,而是一个给定的某个数,即
y ∣ x ∗ = A x ∗ + B + u y|x^*=Ax^*+B+u yx=Ax+B+u
所以期望
μ = E [ y ∣ x ∗ ] = E [ A x ∗ + B + u ] = E [ A x ∗ + B ] + E [ u ] = A x ∗ + B + 0 = A x ∗ + B \begin{equation} \begin{aligned} \mu=E[y|x^*]=&E[Ax^*+B+u] \\=&E\left[Ax^*+B\right]+E[u] \\=&Ax^*+B+0 \\=&Ax^*+B \nonumber \end{aligned} \end{equation} μ=E[yx]====E[Ax+B+u]E[Ax+B]+E[u]Ax+B+0Ax+B
第二到第三个等号是因为常数的均值为常数本身,随机变量 u u u期望前面定为0。

协方差矩阵
Σ = E [ ( y ∣ x ∗ − μ ) ( y ∣ x ∗ − μ ) T ] = E [ ( y ∣ x ∗ − A x ∗ − B ) ( y ∣ x ∗ − A x ∗ − B ) T ] = E [ ( A x ∗ + B + u − A x ∗ − B ) ( A x ∗ + B + u − A x ∗ − B ) T ] = E [ u u T ] = Q \begin{equation} \begin{aligned} \Sigma=&E\left[(y|x^*-\mu)(y|x^*-\mu)^T\right] \\=&E\left[(y|x^*-Ax^*-B)(y|x^*-Ax^*-B)^T\right] \\=&E\left[(Ax^*+B+u-Ax^*-B)(Ax^*+B+u-Ax^*-B)^T\right] \\=&E\left[uu^T\right] \\=&Q \nonumber \end{aligned} \end{equation} Σ=====E[(yxμ)(yxμ)T]E[(yxAxB)(yxAxB)T]E[(Ax+B+uAxB)(Ax+B+uAxB)T]E[uuT]Q
第四个到第五个等号是因为随机变量u的期望是0,所以这就是协方差矩阵的公式,也就是随机变量u的协方差,前面设为Q。

所以我们就得到了随机变量 y ∣ x ∗ ∼ N ( A x ∗ + B , Q ) y|x^*\sim N(Ax^*+B,Q) yxN(Ax+B,Q)

再把 x ∗ x^* x换回 x x x(但请务必记住在 y ∣ x y|x yx中的x是给定的某个值,不是随机变量) P ( y ∣ x ) ∼ N ( y ∣ A x + B , Q ) P(y|x) \sim N(y|Ax+B,Q) P(yx)N(yAx+B,Q)

所以和反推出来的结果一摸一样。所以我们可得到
y = A x + B + u (1) y=Ax+B+u\tag{1} y=Ax+B+u(1)

求解P(y)

由正态分布的性质和式(1)可知,随机变量y依然服从正态分布,所以我们只需要求解出其对应的期望和协方差矩阵即可

设其期望和协方差矩阵分别是 μ y , Σ y \mu_y,\Sigma_y μyΣy
μ y = E [ y ] = E [ A x + B + u ] = E [ A x ] + E [ B ] + E [ u ] = A E [ x ] + B + 0 = A μ x + B \begin{equation} \begin{aligned} \mu_y=E[y]=&E[Ax+B+u] \\=&E[Ax]+E[B]+E[u] \\=&AE[x]+B+0 \\=&A\mu_x+B \nonumber \end{aligned} \end{equation} μy=E[y]====E[Ax+B+u]E[Ax]+E[B]+E[u]AE[x]+B+0Aμx+B
请注意,与随机变量 y ∣ x y|x yx中x是给定的常量不同,随机变量 y y y对应的x也是随机变量。

接下来求解协方差矩阵(利用协方差矩阵的公式)
Σ y = E [ ( y − μ y ) ( y − μ y ) T ] = E [ ( A x + B + u − A μ x − B ) ( A x + B + u − A μ x − B ) T ] = E [ ( A ( x − μ x ) + u ) ( A ( x − μ x ) + u ) T ] = E [ A ( x − μ x ) ( x − μ x ) T A T ] + E [ A ( x − μ x ) u T ] + E [ u ( x − μ x ) T A T ] + E [ u u T ] \begin{equation} \begin{aligned} \Sigma_y=&E\left[(y-\mu_y)(y-\mu_y)^T\right] \\=&E\left[(Ax+B+u-A\mu_x-B)(Ax+B+u-A\mu_x-B)^T\right] \\=&E\left[(A(x-\mu_x)+u)(A(x-\mu_x)+u)^T\right] \\=&E\left[A(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[A(x-\mu_x)u^T\right]+E\left[u(x-\mu_x)^TA^T\right]+E\left[uu^T\right] \nonumber \end{aligned} \end{equation} Σy====E[(yμy)(yμy)T]E[(Ax+B+uAμxB)(Ax+B+uAμxB)T]E[(A(xμx)+u)(A(xμx)+u)T]E[A(xμx)(xμx)TAT]+E[A(xμx)uT]+E[u(xμx)TAT]+E[uuT]
第一个到第二个等号就是把y的等式和 μ y \mu_y μy等式往里面带,第三到第四个等号利用的是乘法分配律(请记住这些方法,因为下面的推导几乎都是重复这一个过程,后面就不作解释了)。我们来看其中一项 E [ A ( x − μ x ) u T ] E\left[A(x-\mu_x)u^T\right] E[A(xμx)uT],将里面按等号拆成两项
E [ A ( x − μ x ) u T ] = A E [ x u T ] − A μ x E [ u T ] E\left[A(x-\mu_x)u^T\right]=AE\left[xu^T\right]-A\mu_x E\left[u^T\right] E[A(xμx)uT]=AE[xuT]AμxE[uT]
对于随机变量x和随机变量u,我们前面假设过他们相互独立的,依据期望的性质,可得
E [ A ( x − μ x ) u T ] = A E [ x ] E [ u T ] − A μ x E [ u T ] = A ∗ μ x ∗ 0 − A ∗ μ x ∗ 0 = 0 \begin{equation} \begin{aligned} E\left[A(x-\mu_x)u^T\right]=&AE\left[x\right]E\left[u^T\right]-A\mu_x E\left[u^T\right] \\=&A*\mu_x*0-A*\mu_x*0 \\=&0 \nonumber \end{aligned} \end{equation} E[A(xμx)uT]===AE[x]E[uT]AμxE[uT]Aμx0Aμx00
同样因为 E [ u ( x − μ ) T A T ] E\left[u(x-\mu)^TA^T\right] E[u(xμ)TAT] E [ A ( x − μ ) u T ] E\left[A(x-\mu)u^T\right] E[A(xμ)uT]互为转置,所以也是等于0

那么最终协方差矩阵就变成了
Σ y = E [ A ( x − μ x ) ( x − μ x ) T A T ] + E [ u u T ] = A E [ ( x − μ x ) ( x − μ x ) T ] A T + E [ u u T ] = A Σ x A T + Q \begin{equation} \begin{aligned} \Sigma_y=&E\left[A(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[uu^T\right] \\=&AE[(x-\mu_x)(x-\mu_x)^T]A^T+E\left[uu^T\right] \\=&A\Sigma_x A^T+Q \nonumber \end{aligned} \end{equation} Σy===E[A(xμx)(xμx)TAT]+E[uuT]AE[(xμx)(xμx)T]AT+E[uuT]AΣxAT+Q
所以我们得到
P ( y ) ∼ N ( y ∣ A μ + B , A Σ A T + Q ) P(y) \sim N(y|A\mu+B,A\Sigma A^T+Q) P(y)N(yAμ+B,AΣAT+Q)

求解P(x,y)

对于这一部分,如何证明它们的联合概率是高斯,看课本或者结尾的参考,建议看参考,课本省略了很多步骤。所以我们只需要求出联合随机变量 x , y x,y x,y的期望和协方差矩阵即可
x , y ∼ N ( ( μ x μ y ) , ( Σ x x Σ x y Σ y x Σ y y ) ) x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix} x,yN((μxμy),(ΣxxΣyxΣxyΣyy))
其中, μ x \mu_x μx表示随机变量x的期望,以此类推。而 Σ x x \Sigma_{xx} Σxx代表随机变量x的协方差矩阵, Σ x y \Sigma_{xy} Σxy代表随机变量x和y的协方差矩阵,以此类推。

前面,我们已经求出了随机变量y的参数了,再加上给定的随机变量x的参数,最终得到
x , y ∼ N ( ( μ x A μ x + B ) , ( Σ x Σ x y Σ y x A Σ x A T + Q ) ) x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_{xy} \\ \Sigma_{yx} & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix} x,yN((μxAμx+B),(ΣxΣyxΣxyAΣxAT+Q))
依据协方差矩阵的对称性 Σ x y = Σ y x \Sigma_{xy}=\Sigma_{yx} Σxy=Σyx,所以我们只需要求出其中一个就可以了
Σ x y = E [ ( x − μ x ) ( y − μ y ) T ] = E [ ( x − μ x ) ( y − A μ x − B ) T ] = E [ ( x − μ x ) ( A x + B + u − A μ x − B ) T ] = E [ ( x − μ x ) ( A ( x − μ x ) + u ) T ] = E [ ( x − μ x ) ( x − μ x ) T A T ] + E [ ( x − μ x ) u T ] = E [ ( x − μ x ) ( x − μ x ) T ] A T + ( x − μ x ) E [ u T ] = Σ x A T + 0 = Σ x A T \begin{equation} \begin{aligned} \Sigma_{xy}=&E[(x-\mu_x)(y-\mu_y)^T] \\=&E\left[(x-\mu_x)(y-A\mu_x-B)^T\right] \\=&E\left[(x-\mu_x)(Ax+B+u-A\mu_x-B)^T\right] \\=&E\left[(x-\mu_x)(A(x-\mu_x)+u)^T\right] \\=&E\left[(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[(x-\mu_x)u^T\right] \\=&E\left[(x-\mu_x)(x-\mu_x)^T\right]A^T+(x-\mu_x)E[u^T] \\=&\Sigma_xA^T+0 \\=&\Sigma_xA^T \nonumber \end{aligned} \end{equation} Σxy========E[(xμx)(yμy)T]E[(xμx)(yAμxB)T]E[(xμx)(Ax+B+uAμxB)T]E[(xμx)(A(xμx)+u)T]E[(xμx)(xμx)TAT]+E[(xμx)uT]E[(xμx)(xμx)T]AT+(xμx)E[uT]ΣxAT+0ΣxAT
所以
P ( x , y ) ∼ N ( x , y ∣ ( μ x A μ x + B ) , ( Σ x Σ x A T A Σ x A Σ x A T + Q ) ) P(x,y) \sim N\begin{pmatrix} \begin{matrix} x , y \end{matrix}| \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_xA^T \\ A\Sigma_x & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix} P(x,y)N(x,y(μxAμx+B),(ΣxAΣxΣxATAΣxAT+Q))

求解P(x|y)

由正态分布的性质可知,条件概率分布依然服从正态分布,所以我们只需要求出随机变量 x ∣ y x|y xy的期望和协方差矩阵即可

对于这个条件概率,我们利用一种相对较为简单的求法。

我们在联合概率里面计算出过随机变量 x , y x,y x,y的参数。为了表达的简便,我们先暂时将其用初始符号表达,即
x , y ∼ N ( ( μ x μ y ) , ( Σ x x Σ x y Σ y x Σ y y ) ) x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix} x,yN((μxμy),(ΣxxΣyxΣxyΣyy))
如果联合概率是上式,那么对于条件概率 P ( x ∣ y ) P(x|y) P(xy),则

怎么得出来得呢?下面我们进行推导

我们先构造一个随机变量 k x y k_{xy} kxy,令
k x y = x − Σ x y Σ y y − 1 y k_{xy}=x-\Sigma_{xy}\Sigma_{yy}^{-1}y kxy=xΣxyΣyy1y
为什么要这样构造?可能算是一种技巧吧。总之后面我们可以证明它和随机变量y相互独立,然后就可以求出 P ( x ∣ y ) P(x|y) P(xy)

设其期望和协方差矩阵分别是 μ k , Σ k \mu_k,\Sigma_k μk,Σk,则期望
μ k = E [ k x y ] = E [ x − Σ x y Σ y y − 1 y ] = E [ x ] − Σ x y Σ y y − 1 E [ y ] = μ x − Σ x y Σ y y − 1 μ y \begin{equation} \begin{aligned} \mu_k=&E[k_{xy}] \\=&E\left[x-\Sigma_{xy}\Sigma_{yy}^{-1}y\right] \\=&E[x]-\Sigma_{xy}\Sigma_{yy}^{-1}E[y] \\=&\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y \nonumber \end{aligned} \end{equation} μk====E[kxy]E[xΣxyΣyy1y]E[x]ΣxyΣyy1E[y]μxΣxyΣyy1μy
协方差矩阵
Σ k = E [ ( k x y − μ k ) ( k x y − μ k ) T ] = E [ ( x − Σ x y Σ y y − 1 y − μ x + Σ x y Σ y y − 1 μ y ) ( x − Σ x y Σ y y − 1 y − μ x + Σ x y Σ y y − 1 μ y ) T ] = E [ ( Σ x y Σ y y − 1 ( μ y − y ) + ( x − μ x ) ) ( Σ x y Σ y y − 1 ( μ y − y ) + ( x − μ x ) ) T ] = E [ Σ x y Σ y y − 1 ( μ y − y ) ( μ y − y ) T Σ y y − 1 Σ x y ] + E [ Σ x y Σ y y − 1 ( μ y − y ) ( μ x − x ) T ] + E [ ( μ x − x ) ( μ y − y ) T Σ y y − 1 Σ x y ] + E [ ( x − μ x ) ( x − μ x ) ] = Σ x y Σ y y − 1 Σ y y Σ y y − 1 Σ x y − Σ x y Σ y y − 1 Σ y x − Σ x y Σ y y − 1 Σ x y + Σ x x = Σ x x − Σ x y Σ y y − 1 Σ y x \begin{equation} \begin{aligned} \Sigma_k=&E\left[(k_{xy}-\mu_k)(k_{xy}-\mu_k)^T\right] \\=&E\left[(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)^T\right] \\=&E\left[(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(x-\mu_x))(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(x-\mu_x))^T\right] \\=&E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(\mu_y-y)^T\Sigma_{yy}^{-1}\Sigma_{xy}\right]+E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(\mu_x-x)^T\right]+ \\&E\left[(\mu_x-x)(\mu_y-y)^T\Sigma_{yy}^{-1}\Sigma_{xy}\right]+E\left[(x-\mu_x)(x-\mu_x)\right] \\=&\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yy}\Sigma_{yy}^{-1}\Sigma_{xy}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{xy}+\Sigma_{xx} \\=&\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx} \nonumber \end{aligned} \end{equation} Σk======E[(kxyμk)(kxyμk)T]E[(xΣxyΣyy1yμx+ΣxyΣyy1μy)(xΣxyΣyy1yμx+ΣxyΣyy1μy)T]E[(ΣxyΣyy1(μyy)+(xμx))(ΣxyΣyy1(μyy)+(xμx))T]E[ΣxyΣyy1(μyy)(μyy)TΣyy1Σxy]+E[ΣxyΣyy1(μyy)(μxx)T]+E[(μxx)(μyy)TΣyy1Σxy]+E[(xμx)(xμx)]ΣxyΣyy1ΣyyΣyy1ΣxyΣxyΣyy1ΣyxΣxyΣyy1Σxy+ΣxxΣxxΣxyΣyy1Σyx
下面我们来证明随机变量 k x y k_{xy} kxy y y y的独立性
C o v ( k x y , x ) = E [ ( k x y − μ k ) ( y − μ y ) T ] = E [ ( x − Σ x y Σ y y − 1 y − μ x + Σ x y Σ y y − 1 μ y ) ( y − μ y ) T ] = E [ ( Σ x y Σ y y − 1 ( μ y − y ) + ( y − μ x ) ) ( y − μ y ) T ] = E [ Σ x y Σ y y − 1 ( μ y − y ) ( y − μ y ) T ] + E [ ( y − μ x ) ( y − μ y ) T ] = − Σ x y Σ y y − 1 Σ y y + Σ x y = − Σ x y + Σ x y = 0 \begin{equation} \begin{aligned} Cov(k_{xy},x)=&E\left[(k_{xy}-\mu_k)(y-\mu_y)^T\right] \\=&E\left[(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)(y-\mu_y)^T\right] \\=&E\left[(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(y-\mu_x))(y-\mu_y)^T\right] \\=&E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(y-\mu_y)^T\right]+E\left[(y-\mu_x)(y-\mu_y)^T\right] \\=&-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yy}+\Sigma_{xy} \\=&-\Sigma_{xy}+\Sigma_{xy} \\=&0 \nonumber \end{aligned} \end{equation} Cov(kxy,x)=======E[(kxyμk)(yμy)T]E[(xΣxyΣyy1yμx+ΣxyΣyy1μy)(yμy)T]E[(ΣxyΣyy1(μyy)+(yμx))(yμy)T]E[ΣxyΣyy1(μyy)(yμy)T]+E[(yμx)(yμy)T]ΣxyΣyy1Σyy+ΣxyΣxy+Σxy0
所以随机变量 k x y k_{xy} kxy和y相互独立

所以
k x y ∣ y → k x y k_{xy}|y\rightarrow k_{xy} kxyykxy


k x y = x − Σ x y Σ y y − 1 y k_{xy}=x-\Sigma_{xy}\Sigma_{yy}^{-1}y kxy=xΣxyΣyy1y

x = k x y + Σ x y Σ y y − 1 y x=k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y x=kxy+ΣxyΣyy1y
所以
x ∣ y = k x , y ∣ y + Σ x y Σ y y − 1 y ∣ y = k x y + Σ x y Σ y y − 1 y \begin{equation} \begin{aligned} x|y=&k_{x,y}|y+\Sigma_{xy}\Sigma_{yy}^{-1}y|y \\=&k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y\nonumber \end{aligned} \end{equation} xy==kx,yy+ΣxyΣyy1yykxy+ΣxyΣyy1y
请注意了,后面的的 y y y实际上已经不是随机变量了(因为 x ∣ y x|y xy中y是给定的),避免混淆,我们用 y ∗ y^* y代替
x ∣ y ∗ = k x y + Σ x y Σ y y − 1 y ∗ x|y^*=k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^* xy=kxy+ΣxyΣyy1y
现在只需要求出它的期望和协方差矩阵即可,设为 μ x ∣ y , Σ x ∣ y \mu_{x|y},\Sigma_{x|y} μxy,Σxy
μ x ∣ y = E [ x ∣ y ∗ ] = E [ k x y + Σ x y Σ y y − 1 y ∗ ] = E [ k x y ] + Σ x y Σ y y − 1 y ∗ = μ k + Σ x y Σ y y − 1 y ∗ \begin{equation} \begin{aligned} \mu_{x|y}=E\left[x|y^*\right]=&E\left[k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*\right] \\=&E\left[k_{xy}\right]+\Sigma_{xy}\Sigma_{yy}^{-1}y^* \\=&\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y^*\nonumber \end{aligned} \end{equation} μxy=E[xy]===E[kxy+ΣxyΣyy1y]E[kxy]+ΣxyΣyy1yμk+ΣxyΣyy1y

Σ x ∣ y = E [ ( x ∣ y ∗ − μ x ∣ y ) ( x ∣ y ∗ − μ x ∣ y ) T ] = E [ ( k x y + Σ x y Σ y y − 1 y ∗ − μ k − Σ x y Σ y y − 1 y ∗ ) ( k x y + Σ x y Σ y y − 1 y ∗ − μ k − Σ x y Σ y y − 1 y ∗ ) T ] = E [ ( k x y − μ k ) ( k x y − μ k ) T ] = Σ k \begin{equation} \begin{aligned} \Sigma_{x|y}=&E\left[(x|y^*-\mu_{x|y})(x|y^*-\mu_{x|y})^T\right] \\=&E\left[(k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*-\mu_k-\Sigma_{xy}\Sigma_{yy}^{-1}y^*)(k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*-\mu_k-\Sigma_{xy}\Sigma_{yy}^{-1}y^*)^T\right] \\=&E\left[(k_{xy}-\mu_k)(k_{xy}-\mu_k)^T\right] \\=&\Sigma_k\nonumber \end{aligned} \end{equation} Σxy====E[(xyμxy)(xyμxy)T]E[(kxy+ΣxyΣyy1yμkΣxyΣyy1y)(kxy+ΣxyΣyy1yμkΣxyΣyy1y)T]E[(kxyμk)(kxyμk)T]Σk

y ∗ y^* y变回 y y y,最终得到
P ( x ∣ y ) ∼ N ( x ∣ μ k + Σ x y Σ y y − 1 y , Σ k ) P(x|y) \sim N(x|\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y,\Sigma_k) P(xy)N(xμk+ΣxyΣyy1y,Σk)
其中 μ k = μ x − Σ x y Σ y y − 1 μ y \mu_k=\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y μk=μxΣxyΣyy1μy Σ k = Σ x x − Σ x y Σ y y − 1 Σ y x \Sigma_k=\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx} Σk=ΣxxΣxyΣyy1Σyx

所以,从这里你可以看出,就算是没有前面的线性随机变量的关系条件,我们仍然可以求出正太联合概率分布的条件概率,我们只需要知道它的联合概率分布的参数即可,我们可以将其当作一个模板。

我们在求解 P ( x , y ) P(x,y) P(x,y)的时候已经将参数求了出来,我们只需要将里面的 P ( x ∣ y ) P(x|y) P(xy)里面对应位置的值进行代换即可。在这里笔者就不去代换了

结论

从我们推导出来的结果来看,实际上我们可以分为两个结论:

①给定
{ P ( x ) ∼ N ( x ∣ μ x , Σ x ) P ( y ∣ x ) ∼ N ( y ∣ A x + B , Q ) \left\{\begin{matrix} P(x)\sim N(x|\mu_x,\Sigma_x) \\P(y|x) \sim N(y|Ax+B,Q) \end{matrix}\right. {P(x)N(xμx,Σx)P(yx)N(yAx+B,Q)
可得
{ y = A x + B + u P ( y ) ∼ N ( y ∣ A μ x + B , A Σ x A T + Q ) P ( x , y ) ∼ N ( x , y ∣ ( μ x A μ x + B ) , ( Σ x Σ x A T A Σ x A Σ x A T + Q ) ) \left\{\begin{matrix}y=Ax+B+u \\ P(y) \sim N(y|A\mu_x+B,A\Sigma_x A^T+Q) \\ P(x,y) \sim N\begin{pmatrix} \begin{matrix} x , y \end{matrix}| \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_xA^T \\ A\Sigma_x & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix} \end{matrix}\right. y=Ax+B+uP(y)N(yAμx+B,AΣxAT+Q)P(x,y)N(x,y(μxAμx+B),(ΣxAΣxΣxATAΣxAT+Q))
②给定
x , y ∼ N ( ( μ x μ y ) , ( Σ x x Σ x y Σ y x Σ y y ) ) x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix} x,yN((μxμy),(ΣxxΣyxΣxyΣyy))
可得
P ( x ∣ y ) ∼ N ( x ∣ μ k + Σ x y Σ y y − 1 y , Σ k ) P(x|y) \sim N(x|\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y,\Sigma_k) P(xy)N(xμk+ΣxyΣyy1y,Σk)
其中 μ k = μ x − Σ x y Σ y y − 1 μ y \mu_k=\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y μk=μxΣxyΣyy1μy Σ k = Σ x x − Σ x y Σ y y − 1 Σ y x \Sigma_k=\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx} Σk=ΣxxΣxyΣyy1Σyx

结束

以上就是本文的全部内容了,其在拥有线性关系的随机变量之间是一个较为常见的解法。如有问题,还望指出。阿里嘎多。

在这里插入图片描述

参考

prml中译课本(gitbooks.io)

模式识别与机器学习(PRML)第二章 第三节 高斯分布 - 知乎 (zhihu.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值