前言
在机器学习的线性动态系统(卡尔曼滤波)中,会有两个随机变量之间存在某种线性关系。下面我们来探讨那些情况下如何求解概率分布的参数。看在这篇文章之前,请确保你有较为扎实概率论的基础,否则可能阅读起来有点困难,我会尽量不跳步,讲得通俗些。
数学基础:【概率论与数理统计知识复习-哔哩哔哩】
原理推导
假设
P
(
x
)
∼
N
(
x
∣
μ
x
,
Σ
x
)
P
(
y
∣
x
)
∼
N
(
y
∣
A
x
+
B
,
Q
)
\begin{equation} \begin{aligned} \\&P(x)\sim N(x|\mu_x,\Sigma_x) \\&P(y|x) \sim N(y|Ax+B,Q) \nonumber \end{aligned} \end{equation}
P(x)∼N(x∣μx,Σx)P(y∣x)∼N(y∣Ax+B,Q)
什么意思呢?就是对随机变量
x
x
x服从期望为
μ
x
\mu_x
μx,协方差矩阵
Σ
x
\Sigma_x
Σx的正态分布,而对于随机变量
y
∣
x
y|x
y∣x,其服从期望为
A
x
+
B
Ax+B
Ax+B,协方差矩阵为
Q
Q
Q的正态分布
本篇文章就两个问题,在给定上述条件的情况下
①随机变量 y y y,它的期望和协方差矩阵是什么?
②随机联合变量 x , y x,y x,y,它的期望和协方差矩阵是什么?
③随机变量 x ∣ y x|y x∣y,它的期望和协方差矩阵是什么?
我们的目标就是求解这两个问题
在求解之前,我们先看看能由上述条件得出些什么隐含的东西
等价变换
其实由随机变量
x
x
x和
y
∣
x
y|x
y∣x之间的关系,可以等价得出随机变量
y
y
y与
x
x
x的关系式
{
P
(
x
)
∼
N
(
x
∣
μ
,
Σ
)
P
(
y
∣
x
)
∼
N
(
y
∣
A
x
+
B
,
Q
)
⇔
{
y
=
A
x
+
B
+
u
\left\{\begin{matrix} P(x)\sim N(x|\mu,\Sigma) \\P(y|x) \sim N(y|Ax+B,Q) \end{matrix}\right. \Leftrightarrow \left\{\begin{matrix} y=Ax+B+u \end{matrix}\right.
{P(x)∼N(x∣μ,Σ)P(y∣x)∼N(y∣Ax+B,Q)⇔{y=Ax+B+u
其中
x
x
x,
u
u
u是随机变量,并且他们相互独立。而
u
∼
N
(
0
,
Q
)
u \sim N(0,Q)
u∼N(0,Q)。N是正态分布的意思。
你可能会好奇,为什么会等价于那个式子?我们可以通过这个式子反推出随机变量 y ∣ x y|x y∣x的期望和协方差矩阵,如果一样,则证明等价成立
对于随机变量 y ∣ x y|x y∣x,可以简单理解为是随机变量 x x x是给定了某个值的,所以 x x x也就不再是一个随机变量,而是一个常数。为了避免混淆,我们用随机变量 y ∣ x ∗ y|x^* y∣x∗来表示随机变量 y ∣ x y|x y∣x,即 y ∣ x = y ∣ x ∗ y|x =y|x^* y∣x=y∣x∗
现在我们作等价性推导,因为
y
=
A
x
+
B
+
u
y=Ax+B+u
y=Ax+B+u
所以在随机变量后面都加上条件,自然得出
y
∣
x
∗
=
A
(
x
∣
x
∗
)
+
B
+
u
y|x^*=A(x|x^*)+B+u
y∣x∗=A(x∣x∗)+B+u
x
∣
x
∗
x|x^*
x∣x∗是什么意思呢?可以理解为随机变量x给定取值
x
∗
x^*
x∗,我们不妨直接用
x
∗
x^*
x∗来代替,所以
x
∗
x^*
x∗不再是一个随机变量,而是一个给定的某个数,即
y
∣
x
∗
=
A
x
∗
+
B
+
u
y|x^*=Ax^*+B+u
y∣x∗=Ax∗+B+u
所以期望
μ
=
E
[
y
∣
x
∗
]
=
E
[
A
x
∗
+
B
+
u
]
=
E
[
A
x
∗
+
B
]
+
E
[
u
]
=
A
x
∗
+
B
+
0
=
A
x
∗
+
B
\begin{equation} \begin{aligned} \mu=E[y|x^*]=&E[Ax^*+B+u] \\=&E\left[Ax^*+B\right]+E[u] \\=&Ax^*+B+0 \\=&Ax^*+B \nonumber \end{aligned} \end{equation}
μ=E[y∣x∗]====E[Ax∗+B+u]E[Ax∗+B]+E[u]Ax∗+B+0Ax∗+B
第二到第三个等号是因为常数的均值为常数本身,随机变量
u
u
u期望前面定为0。
协方差矩阵
Σ
=
E
[
(
y
∣
x
∗
−
μ
)
(
y
∣
x
∗
−
μ
)
T
]
=
E
[
(
y
∣
x
∗
−
A
x
∗
−
B
)
(
y
∣
x
∗
−
A
x
∗
−
B
)
T
]
=
E
[
(
A
x
∗
+
B
+
u
−
A
x
∗
−
B
)
(
A
x
∗
+
B
+
u
−
A
x
∗
−
B
)
T
]
=
E
[
u
u
T
]
=
Q
\begin{equation} \begin{aligned} \Sigma=&E\left[(y|x^*-\mu)(y|x^*-\mu)^T\right] \\=&E\left[(y|x^*-Ax^*-B)(y|x^*-Ax^*-B)^T\right] \\=&E\left[(Ax^*+B+u-Ax^*-B)(Ax^*+B+u-Ax^*-B)^T\right] \\=&E\left[uu^T\right] \\=&Q \nonumber \end{aligned} \end{equation}
Σ=====E[(y∣x∗−μ)(y∣x∗−μ)T]E[(y∣x∗−Ax∗−B)(y∣x∗−Ax∗−B)T]E[(Ax∗+B+u−Ax∗−B)(Ax∗+B+u−Ax∗−B)T]E[uuT]Q
第四个到第五个等号是因为随机变量u的期望是0,所以这就是协方差矩阵的公式,也就是随机变量u的协方差,前面设为Q。
所以我们就得到了随机变量 y ∣ x ∗ ∼ N ( A x ∗ + B , Q ) y|x^*\sim N(Ax^*+B,Q) y∣x∗∼N(Ax∗+B,Q)
再把 x ∗ x^* x∗换回 x x x(但请务必记住在 y ∣ x y|x y∣x中的x是给定的某个值,不是随机变量) P ( y ∣ x ) ∼ N ( y ∣ A x + B , Q ) P(y|x) \sim N(y|Ax+B,Q) P(y∣x)∼N(y∣Ax+B,Q)
所以和反推出来的结果一摸一样。所以我们可得到
y
=
A
x
+
B
+
u
(1)
y=Ax+B+u\tag{1}
y=Ax+B+u(1)
求解P(y)
由正态分布的性质和式(1)可知,随机变量y依然服从正态分布,所以我们只需要求解出其对应的期望和协方差矩阵即可
设其期望和协方差矩阵分别是
μ
y
,
Σ
y
\mu_y,\Sigma_y
μy,Σy
μ
y
=
E
[
y
]
=
E
[
A
x
+
B
+
u
]
=
E
[
A
x
]
+
E
[
B
]
+
E
[
u
]
=
A
E
[
x
]
+
B
+
0
=
A
μ
x
+
B
\begin{equation} \begin{aligned} \mu_y=E[y]=&E[Ax+B+u] \\=&E[Ax]+E[B]+E[u] \\=&AE[x]+B+0 \\=&A\mu_x+B \nonumber \end{aligned} \end{equation}
μy=E[y]====E[Ax+B+u]E[Ax]+E[B]+E[u]AE[x]+B+0Aμx+B
请注意,与随机变量
y
∣
x
y|x
y∣x中x是给定的常量不同,随机变量
y
y
y对应的x也是随机变量。
接下来求解协方差矩阵(利用协方差矩阵的公式)
Σ
y
=
E
[
(
y
−
μ
y
)
(
y
−
μ
y
)
T
]
=
E
[
(
A
x
+
B
+
u
−
A
μ
x
−
B
)
(
A
x
+
B
+
u
−
A
μ
x
−
B
)
T
]
=
E
[
(
A
(
x
−
μ
x
)
+
u
)
(
A
(
x
−
μ
x
)
+
u
)
T
]
=
E
[
A
(
x
−
μ
x
)
(
x
−
μ
x
)
T
A
T
]
+
E
[
A
(
x
−
μ
x
)
u
T
]
+
E
[
u
(
x
−
μ
x
)
T
A
T
]
+
E
[
u
u
T
]
\begin{equation} \begin{aligned} \Sigma_y=&E\left[(y-\mu_y)(y-\mu_y)^T\right] \\=&E\left[(Ax+B+u-A\mu_x-B)(Ax+B+u-A\mu_x-B)^T\right] \\=&E\left[(A(x-\mu_x)+u)(A(x-\mu_x)+u)^T\right] \\=&E\left[A(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[A(x-\mu_x)u^T\right]+E\left[u(x-\mu_x)^TA^T\right]+E\left[uu^T\right] \nonumber \end{aligned} \end{equation}
Σy====E[(y−μy)(y−μy)T]E[(Ax+B+u−Aμx−B)(Ax+B+u−Aμx−B)T]E[(A(x−μx)+u)(A(x−μx)+u)T]E[A(x−μx)(x−μx)TAT]+E[A(x−μx)uT]+E[u(x−μx)TAT]+E[uuT]
第一个到第二个等号就是把y的等式和
μ
y
\mu_y
μy等式往里面带,第三到第四个等号利用的是乘法分配律(请记住这些方法,因为下面的推导几乎都是重复这一个过程,后面就不作解释了)。我们来看其中一项
E
[
A
(
x
−
μ
x
)
u
T
]
E\left[A(x-\mu_x)u^T\right]
E[A(x−μx)uT],将里面按等号拆成两项
E
[
A
(
x
−
μ
x
)
u
T
]
=
A
E
[
x
u
T
]
−
A
μ
x
E
[
u
T
]
E\left[A(x-\mu_x)u^T\right]=AE\left[xu^T\right]-A\mu_x E\left[u^T\right]
E[A(x−μx)uT]=AE[xuT]−AμxE[uT]
对于随机变量x和随机变量u,我们前面假设过他们相互独立的,依据期望的性质,可得
E
[
A
(
x
−
μ
x
)
u
T
]
=
A
E
[
x
]
E
[
u
T
]
−
A
μ
x
E
[
u
T
]
=
A
∗
μ
x
∗
0
−
A
∗
μ
x
∗
0
=
0
\begin{equation} \begin{aligned} E\left[A(x-\mu_x)u^T\right]=&AE\left[x\right]E\left[u^T\right]-A\mu_x E\left[u^T\right] \\=&A*\mu_x*0-A*\mu_x*0 \\=&0 \nonumber \end{aligned} \end{equation}
E[A(x−μx)uT]===AE[x]E[uT]−AμxE[uT]A∗μx∗0−A∗μx∗00
同样因为
E
[
u
(
x
−
μ
)
T
A
T
]
E\left[u(x-\mu)^TA^T\right]
E[u(x−μ)TAT]与
E
[
A
(
x
−
μ
)
u
T
]
E\left[A(x-\mu)u^T\right]
E[A(x−μ)uT]互为转置,所以也是等于0
那么最终协方差矩阵就变成了
Σ
y
=
E
[
A
(
x
−
μ
x
)
(
x
−
μ
x
)
T
A
T
]
+
E
[
u
u
T
]
=
A
E
[
(
x
−
μ
x
)
(
x
−
μ
x
)
T
]
A
T
+
E
[
u
u
T
]
=
A
Σ
x
A
T
+
Q
\begin{equation} \begin{aligned} \Sigma_y=&E\left[A(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[uu^T\right] \\=&AE[(x-\mu_x)(x-\mu_x)^T]A^T+E\left[uu^T\right] \\=&A\Sigma_x A^T+Q \nonumber \end{aligned} \end{equation}
Σy===E[A(x−μx)(x−μx)TAT]+E[uuT]AE[(x−μx)(x−μx)T]AT+E[uuT]AΣxAT+Q
所以我们得到
P
(
y
)
∼
N
(
y
∣
A
μ
+
B
,
A
Σ
A
T
+
Q
)
P(y) \sim N(y|A\mu+B,A\Sigma A^T+Q)
P(y)∼N(y∣Aμ+B,AΣAT+Q)
求解P(x,y)
对于这一部分,如何证明它们的联合概率是高斯,看课本或者结尾的参考,建议看参考,课本省略了很多步骤。所以我们只需要求出联合随机变量
x
,
y
x,y
x,y的期望和协方差矩阵即可
x
,
y
∼
N
(
(
μ
x
μ
y
)
,
(
Σ
x
x
Σ
x
y
Σ
y
x
Σ
y
y
)
)
x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix}
x,y∼N((μxμy),(ΣxxΣyxΣxyΣyy))
其中,
μ
x
\mu_x
μx表示随机变量x的期望,以此类推。而
Σ
x
x
\Sigma_{xx}
Σxx代表随机变量x的协方差矩阵,
Σ
x
y
\Sigma_{xy}
Σxy代表随机变量x和y的协方差矩阵,以此类推。
前面,我们已经求出了随机变量y的参数了,再加上给定的随机变量x的参数,最终得到
x
,
y
∼
N
(
(
μ
x
A
μ
x
+
B
)
,
(
Σ
x
Σ
x
y
Σ
y
x
A
Σ
x
A
T
+
Q
)
)
x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_{xy} \\ \Sigma_{yx} & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix}
x,y∼N((μxAμx+B),(ΣxΣyxΣxyAΣxAT+Q))
依据协方差矩阵的对称性
Σ
x
y
=
Σ
y
x
\Sigma_{xy}=\Sigma_{yx}
Σxy=Σyx,所以我们只需要求出其中一个就可以了
Σ
x
y
=
E
[
(
x
−
μ
x
)
(
y
−
μ
y
)
T
]
=
E
[
(
x
−
μ
x
)
(
y
−
A
μ
x
−
B
)
T
]
=
E
[
(
x
−
μ
x
)
(
A
x
+
B
+
u
−
A
μ
x
−
B
)
T
]
=
E
[
(
x
−
μ
x
)
(
A
(
x
−
μ
x
)
+
u
)
T
]
=
E
[
(
x
−
μ
x
)
(
x
−
μ
x
)
T
A
T
]
+
E
[
(
x
−
μ
x
)
u
T
]
=
E
[
(
x
−
μ
x
)
(
x
−
μ
x
)
T
]
A
T
+
(
x
−
μ
x
)
E
[
u
T
]
=
Σ
x
A
T
+
0
=
Σ
x
A
T
\begin{equation} \begin{aligned} \Sigma_{xy}=&E[(x-\mu_x)(y-\mu_y)^T] \\=&E\left[(x-\mu_x)(y-A\mu_x-B)^T\right] \\=&E\left[(x-\mu_x)(Ax+B+u-A\mu_x-B)^T\right] \\=&E\left[(x-\mu_x)(A(x-\mu_x)+u)^T\right] \\=&E\left[(x-\mu_x)(x-\mu_x)^TA^T\right]+E\left[(x-\mu_x)u^T\right] \\=&E\left[(x-\mu_x)(x-\mu_x)^T\right]A^T+(x-\mu_x)E[u^T] \\=&\Sigma_xA^T+0 \\=&\Sigma_xA^T \nonumber \end{aligned} \end{equation}
Σxy========E[(x−μx)(y−μy)T]E[(x−μx)(y−Aμx−B)T]E[(x−μx)(Ax+B+u−Aμx−B)T]E[(x−μx)(A(x−μx)+u)T]E[(x−μx)(x−μx)TAT]+E[(x−μx)uT]E[(x−μx)(x−μx)T]AT+(x−μx)E[uT]ΣxAT+0ΣxAT
所以
P
(
x
,
y
)
∼
N
(
x
,
y
∣
(
μ
x
A
μ
x
+
B
)
,
(
Σ
x
Σ
x
A
T
A
Σ
x
A
Σ
x
A
T
+
Q
)
)
P(x,y) \sim N\begin{pmatrix} \begin{matrix} x , y \end{matrix}| \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_xA^T \\ A\Sigma_x & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix}
P(x,y)∼N(x,y∣(μxAμx+B),(ΣxAΣxΣxATAΣxAT+Q))
求解P(x|y)
由正态分布的性质可知,条件概率分布依然服从正态分布,所以我们只需要求出随机变量 x ∣ y x|y x∣y的期望和协方差矩阵即可
对于这个条件概率,我们利用一种相对较为简单的求法。
我们在联合概率里面计算出过随机变量
x
,
y
x,y
x,y的参数。为了表达的简便,我们先暂时将其用初始符号表达,即
x
,
y
∼
N
(
(
μ
x
μ
y
)
,
(
Σ
x
x
Σ
x
y
Σ
y
x
Σ
y
y
)
)
x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix}
x,y∼N((μxμy),(ΣxxΣyxΣxyΣyy))
如果联合概率是上式,那么对于条件概率
P
(
x
∣
y
)
P(x|y)
P(x∣y),则
怎么得出来得呢?下面我们进行推导
我们先构造一个随机变量
k
x
y
k_{xy}
kxy,令
k
x
y
=
x
−
Σ
x
y
Σ
y
y
−
1
y
k_{xy}=x-\Sigma_{xy}\Sigma_{yy}^{-1}y
kxy=x−ΣxyΣyy−1y
为什么要这样构造?可能算是一种技巧吧。总之后面我们可以证明它和随机变量y相互独立,然后就可以求出
P
(
x
∣
y
)
P(x|y)
P(x∣y)
设其期望和协方差矩阵分别是
μ
k
,
Σ
k
\mu_k,\Sigma_k
μk,Σk,则期望
μ
k
=
E
[
k
x
y
]
=
E
[
x
−
Σ
x
y
Σ
y
y
−
1
y
]
=
E
[
x
]
−
Σ
x
y
Σ
y
y
−
1
E
[
y
]
=
μ
x
−
Σ
x
y
Σ
y
y
−
1
μ
y
\begin{equation} \begin{aligned} \mu_k=&E[k_{xy}] \\=&E\left[x-\Sigma_{xy}\Sigma_{yy}^{-1}y\right] \\=&E[x]-\Sigma_{xy}\Sigma_{yy}^{-1}E[y] \\=&\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y \nonumber \end{aligned} \end{equation}
μk====E[kxy]E[x−ΣxyΣyy−1y]E[x]−ΣxyΣyy−1E[y]μx−ΣxyΣyy−1μy
协方差矩阵
Σ
k
=
E
[
(
k
x
y
−
μ
k
)
(
k
x
y
−
μ
k
)
T
]
=
E
[
(
x
−
Σ
x
y
Σ
y
y
−
1
y
−
μ
x
+
Σ
x
y
Σ
y
y
−
1
μ
y
)
(
x
−
Σ
x
y
Σ
y
y
−
1
y
−
μ
x
+
Σ
x
y
Σ
y
y
−
1
μ
y
)
T
]
=
E
[
(
Σ
x
y
Σ
y
y
−
1
(
μ
y
−
y
)
+
(
x
−
μ
x
)
)
(
Σ
x
y
Σ
y
y
−
1
(
μ
y
−
y
)
+
(
x
−
μ
x
)
)
T
]
=
E
[
Σ
x
y
Σ
y
y
−
1
(
μ
y
−
y
)
(
μ
y
−
y
)
T
Σ
y
y
−
1
Σ
x
y
]
+
E
[
Σ
x
y
Σ
y
y
−
1
(
μ
y
−
y
)
(
μ
x
−
x
)
T
]
+
E
[
(
μ
x
−
x
)
(
μ
y
−
y
)
T
Σ
y
y
−
1
Σ
x
y
]
+
E
[
(
x
−
μ
x
)
(
x
−
μ
x
)
]
=
Σ
x
y
Σ
y
y
−
1
Σ
y
y
Σ
y
y
−
1
Σ
x
y
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
−
Σ
x
y
Σ
y
y
−
1
Σ
x
y
+
Σ
x
x
=
Σ
x
x
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
\begin{equation} \begin{aligned} \Sigma_k=&E\left[(k_{xy}-\mu_k)(k_{xy}-\mu_k)^T\right] \\=&E\left[(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)^T\right] \\=&E\left[(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(x-\mu_x))(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(x-\mu_x))^T\right] \\=&E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(\mu_y-y)^T\Sigma_{yy}^{-1}\Sigma_{xy}\right]+E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(\mu_x-x)^T\right]+ \\&E\left[(\mu_x-x)(\mu_y-y)^T\Sigma_{yy}^{-1}\Sigma_{xy}\right]+E\left[(x-\mu_x)(x-\mu_x)\right] \\=&\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yy}\Sigma_{yy}^{-1}\Sigma_{xy}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{xy}+\Sigma_{xx} \\=&\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx} \nonumber \end{aligned} \end{equation}
Σk======E[(kxy−μk)(kxy−μk)T]E[(x−ΣxyΣyy−1y−μx+ΣxyΣyy−1μy)(x−ΣxyΣyy−1y−μx+ΣxyΣyy−1μy)T]E[(ΣxyΣyy−1(μy−y)+(x−μx))(ΣxyΣyy−1(μy−y)+(x−μx))T]E[ΣxyΣyy−1(μy−y)(μy−y)TΣyy−1Σxy]+E[ΣxyΣyy−1(μy−y)(μx−x)T]+E[(μx−x)(μy−y)TΣyy−1Σxy]+E[(x−μx)(x−μx)]ΣxyΣyy−1ΣyyΣyy−1Σxy−ΣxyΣyy−1Σyx−ΣxyΣyy−1Σxy+ΣxxΣxx−ΣxyΣyy−1Σyx
下面我们来证明随机变量
k
x
y
k_{xy}
kxy和
y
y
y的独立性
C
o
v
(
k
x
y
,
x
)
=
E
[
(
k
x
y
−
μ
k
)
(
y
−
μ
y
)
T
]
=
E
[
(
x
−
Σ
x
y
Σ
y
y
−
1
y
−
μ
x
+
Σ
x
y
Σ
y
y
−
1
μ
y
)
(
y
−
μ
y
)
T
]
=
E
[
(
Σ
x
y
Σ
y
y
−
1
(
μ
y
−
y
)
+
(
y
−
μ
x
)
)
(
y
−
μ
y
)
T
]
=
E
[
Σ
x
y
Σ
y
y
−
1
(
μ
y
−
y
)
(
y
−
μ
y
)
T
]
+
E
[
(
y
−
μ
x
)
(
y
−
μ
y
)
T
]
=
−
Σ
x
y
Σ
y
y
−
1
Σ
y
y
+
Σ
x
y
=
−
Σ
x
y
+
Σ
x
y
=
0
\begin{equation} \begin{aligned} Cov(k_{xy},x)=&E\left[(k_{xy}-\mu_k)(y-\mu_y)^T\right] \\=&E\left[(x-\Sigma_{xy}\Sigma_{yy}^{-1}y-\mu_x+\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y)(y-\mu_y)^T\right] \\=&E\left[(\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)+(y-\mu_x))(y-\mu_y)^T\right] \\=&E\left[\Sigma_{xy}\Sigma_{yy}^{-1}(\mu_y-y)(y-\mu_y)^T\right]+E\left[(y-\mu_x)(y-\mu_y)^T\right] \\=&-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yy}+\Sigma_{xy} \\=&-\Sigma_{xy}+\Sigma_{xy} \\=&0 \nonumber \end{aligned} \end{equation}
Cov(kxy,x)=======E[(kxy−μk)(y−μy)T]E[(x−ΣxyΣyy−1y−μx+ΣxyΣyy−1μy)(y−μy)T]E[(ΣxyΣyy−1(μy−y)+(y−μx))(y−μy)T]E[ΣxyΣyy−1(μy−y)(y−μy)T]+E[(y−μx)(y−μy)T]−ΣxyΣyy−1Σyy+Σxy−Σxy+Σxy0
所以随机变量
k
x
y
k_{xy}
kxy和y相互独立
所以
k
x
y
∣
y
→
k
x
y
k_{xy}|y\rightarrow k_{xy}
kxy∣y→kxy
由
k
x
y
=
x
−
Σ
x
y
Σ
y
y
−
1
y
k_{xy}=x-\Sigma_{xy}\Sigma_{yy}^{-1}y
kxy=x−ΣxyΣyy−1y
得
x
=
k
x
y
+
Σ
x
y
Σ
y
y
−
1
y
x=k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y
x=kxy+ΣxyΣyy−1y
所以
x
∣
y
=
k
x
,
y
∣
y
+
Σ
x
y
Σ
y
y
−
1
y
∣
y
=
k
x
y
+
Σ
x
y
Σ
y
y
−
1
y
\begin{equation} \begin{aligned} x|y=&k_{x,y}|y+\Sigma_{xy}\Sigma_{yy}^{-1}y|y \\=&k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y\nonumber \end{aligned} \end{equation}
x∣y==kx,y∣y+ΣxyΣyy−1y∣ykxy+ΣxyΣyy−1y
请注意了,后面的的
y
y
y实际上已经不是随机变量了(因为
x
∣
y
x|y
x∣y中y是给定的),避免混淆,我们用
y
∗
y^*
y∗代替
x
∣
y
∗
=
k
x
y
+
Σ
x
y
Σ
y
y
−
1
y
∗
x|y^*=k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*
x∣y∗=kxy+ΣxyΣyy−1y∗
现在只需要求出它的期望和协方差矩阵即可,设为
μ
x
∣
y
,
Σ
x
∣
y
\mu_{x|y},\Sigma_{x|y}
μx∣y,Σx∣y
μ
x
∣
y
=
E
[
x
∣
y
∗
]
=
E
[
k
x
y
+
Σ
x
y
Σ
y
y
−
1
y
∗
]
=
E
[
k
x
y
]
+
Σ
x
y
Σ
y
y
−
1
y
∗
=
μ
k
+
Σ
x
y
Σ
y
y
−
1
y
∗
\begin{equation} \begin{aligned} \mu_{x|y}=E\left[x|y^*\right]=&E\left[k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*\right] \\=&E\left[k_{xy}\right]+\Sigma_{xy}\Sigma_{yy}^{-1}y^* \\=&\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y^*\nonumber \end{aligned} \end{equation}
μx∣y=E[x∣y∗]===E[kxy+ΣxyΣyy−1y∗]E[kxy]+ΣxyΣyy−1y∗μk+ΣxyΣyy−1y∗
Σ x ∣ y = E [ ( x ∣ y ∗ − μ x ∣ y ) ( x ∣ y ∗ − μ x ∣ y ) T ] = E [ ( k x y + Σ x y Σ y y − 1 y ∗ − μ k − Σ x y Σ y y − 1 y ∗ ) ( k x y + Σ x y Σ y y − 1 y ∗ − μ k − Σ x y Σ y y − 1 y ∗ ) T ] = E [ ( k x y − μ k ) ( k x y − μ k ) T ] = Σ k \begin{equation} \begin{aligned} \Sigma_{x|y}=&E\left[(x|y^*-\mu_{x|y})(x|y^*-\mu_{x|y})^T\right] \\=&E\left[(k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*-\mu_k-\Sigma_{xy}\Sigma_{yy}^{-1}y^*)(k_{xy}+\Sigma_{xy}\Sigma_{yy}^{-1}y^*-\mu_k-\Sigma_{xy}\Sigma_{yy}^{-1}y^*)^T\right] \\=&E\left[(k_{xy}-\mu_k)(k_{xy}-\mu_k)^T\right] \\=&\Sigma_k\nonumber \end{aligned} \end{equation} Σx∣y====E[(x∣y∗−μx∣y)(x∣y∗−μx∣y)T]E[(kxy+ΣxyΣyy−1y∗−μk−ΣxyΣyy−1y∗)(kxy+ΣxyΣyy−1y∗−μk−ΣxyΣyy−1y∗)T]E[(kxy−μk)(kxy−μk)T]Σk
将
y
∗
y^*
y∗变回
y
y
y,最终得到
P
(
x
∣
y
)
∼
N
(
x
∣
μ
k
+
Σ
x
y
Σ
y
y
−
1
y
,
Σ
k
)
P(x|y) \sim N(x|\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y,\Sigma_k)
P(x∣y)∼N(x∣μk+ΣxyΣyy−1y,Σk)
其中
μ
k
=
μ
x
−
Σ
x
y
Σ
y
y
−
1
μ
y
\mu_k=\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y
μk=μx−ΣxyΣyy−1μy,
Σ
k
=
Σ
x
x
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
\Sigma_k=\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx}
Σk=Σxx−ΣxyΣyy−1Σyx
所以,从这里你可以看出,就算是没有前面的线性随机变量的关系条件,我们仍然可以求出正太联合概率分布的条件概率,我们只需要知道它的联合概率分布的参数即可,我们可以将其当作一个模板。
我们在求解 P ( x , y ) P(x,y) P(x,y)的时候已经将参数求了出来,我们只需要将里面的 P ( x ∣ y ) P(x|y) P(x∣y)里面对应位置的值进行代换即可。在这里笔者就不去代换了
结论
从我们推导出来的结果来看,实际上我们可以分为两个结论:
①给定
{
P
(
x
)
∼
N
(
x
∣
μ
x
,
Σ
x
)
P
(
y
∣
x
)
∼
N
(
y
∣
A
x
+
B
,
Q
)
\left\{\begin{matrix} P(x)\sim N(x|\mu_x,\Sigma_x) \\P(y|x) \sim N(y|Ax+B,Q) \end{matrix}\right.
{P(x)∼N(x∣μx,Σx)P(y∣x)∼N(y∣Ax+B,Q)
可得
{
y
=
A
x
+
B
+
u
P
(
y
)
∼
N
(
y
∣
A
μ
x
+
B
,
A
Σ
x
A
T
+
Q
)
P
(
x
,
y
)
∼
N
(
x
,
y
∣
(
μ
x
A
μ
x
+
B
)
,
(
Σ
x
Σ
x
A
T
A
Σ
x
A
Σ
x
A
T
+
Q
)
)
\left\{\begin{matrix}y=Ax+B+u \\ P(y) \sim N(y|A\mu_x+B,A\Sigma_x A^T+Q) \\ P(x,y) \sim N\begin{pmatrix} \begin{matrix} x , y \end{matrix}| \begin{pmatrix} \mu_x \\ A\mu_x+B \end{pmatrix}, \begin{pmatrix} \Sigma_x &\Sigma_xA^T \\ A\Sigma_x & A\Sigma_x A^T+Q \end{pmatrix} \end{pmatrix} \end{matrix}\right.
⎩
⎨
⎧y=Ax+B+uP(y)∼N(y∣Aμx+B,AΣxAT+Q)P(x,y)∼N(x,y∣(μxAμx+B),(ΣxAΣxΣxATAΣxAT+Q))
②给定
x
,
y
∼
N
(
(
μ
x
μ
y
)
,
(
Σ
x
x
Σ
x
y
Σ
y
x
Σ
y
y
)
)
x,y \sim N\begin{pmatrix} \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \Sigma_{xx} &\Sigma_{xy} \\ \Sigma_{yx} & \Sigma_{yy} \end{pmatrix} \end{pmatrix}
x,y∼N((μxμy),(ΣxxΣyxΣxyΣyy))
可得
P
(
x
∣
y
)
∼
N
(
x
∣
μ
k
+
Σ
x
y
Σ
y
y
−
1
y
,
Σ
k
)
P(x|y) \sim N(x|\mu_k+\Sigma_{xy}\Sigma_{yy}^{-1}y,\Sigma_k)
P(x∣y)∼N(x∣μk+ΣxyΣyy−1y,Σk)
其中
μ
k
=
μ
x
−
Σ
x
y
Σ
y
y
−
1
μ
y
\mu_k=\mu_x-\Sigma_{xy}\Sigma_{yy}^{-1}\mu_y
μk=μx−ΣxyΣyy−1μy,
Σ
k
=
Σ
x
x
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
\Sigma_k=\Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx}
Σk=Σxx−ΣxyΣyy−1Σyx
结束
以上就是本文的全部内容了,其在拥有线性关系的随机变量之间是一个较为常见的解法。如有问题,还望指出。阿里嘎多。