multiple, independent regression problems.
共享相同的基函数
对
β
求
导
可
计
算
β
估
计
值
\beta求导可计算\beta估计值
β求导可计算β估计值
多变量解耦:原因在于 W ( M ∗ K ) W(M*K) W(M∗K)只定义了高斯噪声的输出,只考虑单变量即可
W
W
W中
K
个
变
量
之
间
的
协
方
差
解
偶
证
明
K个变量之间的协方差解偶证明
K个变量之间的协方差解偶证明
p
(
t
∣
x
,
W
,
β
)
=
N
(
t
∣
W
T
ϕ
(
x
)
,
β
−
1
I
)
p(\mathbf{t} | \mathbf{x}, \mathbf{W}, \beta)=\mathcal{N}\left(\mathbf{t} | \mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1} \mathbf{I}\right)
p(t∣x,W,β)=N(t∣WTϕ(x),β−1I)
对
于
单
个
样
本
来
说
,
上
面
式
子
中
t
表
示
K
个
变
量
,
其
均
值
W
T
ϕ
(
x
)
对于单个样本来说,上面式子中\mathbf{t}表示K个变量,其均值\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})
对于单个样本来说,上面式子中t表示K个变量,其均值WTϕ(x)
为
K
维
向
量
,
协
方
差
矩
阵
为
对
角
阵
,
说
明
变
量
之
间
相
互
独
立
为K维向量,协方差矩阵为对角阵,说明变量之间相互独立
为K维向量,协方差矩阵为对角阵,说明变量之间相互独立
简单证明如下
用
到
的
公
式
:
d
∣
A
∣
=
t
r
(
A
∗
d
A
)
,
∂
∣
A
∣
∂
A
=
(
A
∗
)
T
=
∣
A
∣
(
A
−
1
)
T
,
特
别
当
A
=
Σ
为
对
称
矩
阵
时
,
行
列
式
对
矩
阵
的
导
数
=
行
列
式
∗
矩
阵
的
逆
用到的公式:d|A|=tr(A^*dA),\frac{\partial{\mathbf{|A|}}}{\partial\mathbf{A}}=(A^*)^T=|A|(A^{-1})^T,特别当A=\Sigma为对称矩阵时,行列式对矩阵的导数=行列式*矩阵的逆
用到的公式:d∣A∣=tr(A∗dA),∂A∂∣A∣=(A∗)T=∣A∣(A−1)T,特别当A=Σ为对称矩阵时,行列式对矩阵的导数=行列式∗矩阵的逆
A
A
−
1
=
I
AA ^{-1}=\mathrm{I}
AA−1=I
d
A
A
−
1
+
A
d
A
−
1
=
0
dAA ^{-1}+AdA^{-1}=\mathrm{0}
dAA−1+AdA−1=0
d
A
−
1
=
−
A
−
1
d
A
A
−
1
dA^{-1}=-A^{-1}dAA ^{-1}
dA−1=−A−1dAA−1
有了以上公式对下式中的
Σ
\mathbf\Sigma
Σ求导
ln
L
(
W
,
Σ
)
=
−
N
2
ln
∣
Σ
∣
−
1
2
∑
n
=
1
N
(
t
n
−
W
T
ϕ
(
x
n
)
)
T
Σ
−
1
(
t
n
−
W
T
ϕ
(
x
n
)
)
\ln L(\mathbf{W}, \mathbf{\Sigma})=-\frac{N}{2} \ln |\mathbf{\Sigma}|-\frac{1}{2} \sum_{n=1}^{N}\left(\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{\mathrm{T}} \mathbf{\Sigma}^{-1}\left(\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)
lnL(W,Σ)=−2Nln∣Σ∣−21n=1∑N(tn−WTϕ(xn))TΣ−1(tn−WTϕ(xn))
令
A
=
(
t
n
−
W
T
ϕ
(
x
n
)
)
令A=(\mathbf{t}_n-\mathbf{W}^{\mathrm{T}}\boldsymbol{\phi(\mathbf{x}_n)})
令A=(tn−WTϕ(xn))
f
=
A
T
Σ
−
1
A
f=A^{\mathrm{T}}\mathbf{\Sigma}^{-1}A
f=ATΣ−1A
d
f
=
A
T
d
Σ
−
1
A
=
t
r
(
A
T
d
Σ
−
1
A
)
=
t
r
(
A
A
T
d
Σ
−
1
)
df=A^{\mathrm{T}}d\mathbf{\Sigma}^{-1}A=tr(A^{\mathrm{T}}d\mathbf{\Sigma}^{-1}A)=tr(AA^{\mathrm{T}}d\mathbf{\Sigma}^{-1})
df=ATdΣ−1A=tr(ATdΣ−1A)=tr(AATdΣ−1)
=
−
t
r
(
A
A
T
Σ
−
1
d
Σ
Σ
−
1
)
=
−
t
r
(
Σ
−
1
A
A
T
Σ
−
1
d
Σ
)
=-tr(AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}d\mathbf{\Sigma}\mathbf{\Sigma}^{-1})=-tr(\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}d\mathbf{\Sigma})
=−tr(AATΣ−1dΣΣ−1)=−tr(Σ−1AATΣ−1dΣ)
∂
f
∂
Σ
=
−
Σ
−
1
A
A
T
Σ
−
1
\frac{\partial f}{\partial \mathbf{\Sigma}}=-\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}
∂Σ∂f=−Σ−1AATΣ−1
因此有:
−
N
2
Σ
−
1
+
1
2
∑
n
=
1
N
Σ
−
1
A
A
T
Σ
−
1
=
0
-\frac{N}{2}\mathbf{\Sigma}^{-1}+\frac{1}{2}\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}=0
−2NΣ−1+21n=1∑NΣ−1AATΣ−1=0
∑
n
=
1
N
Σ
−
1
+
∑
n
=
1
N
Σ
−
1
A
A
T
Σ
−
1
=
0
\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}+\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}=0
n=1∑NΣ−1+n=1∑NΣ−1AATΣ−1=0
−
∑
n
=
1
N
Σ
−
1
(
I
−
A
A
T
Σ
−
1
)
=
0
-\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}(\mathrm I-AA^{\mathrm{T}}\mathbf{\Sigma}^{-1})=0
−n=1∑NΣ−1(I−AATΣ−1)=0
∑
n
=
1
N
(
I
−
A
A
T
Σ
−
1
)
=
0
\sum_{n=1}^{N}(\mathrm I-AA^{\mathrm{T}}\mathbf{\Sigma}^{-1})=0
n=1∑N(I−AATΣ−1)=0
N
I
=
∑
n
=
1
N
A
A
T
Σ
−
1
N\mathrm I=\sum_{n=1}^{N}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}
NI=n=1∑NAATΣ−1
Σ
=
1
N
∑
n
=
1
N
A
A
T
\mathbf{\Sigma}=\frac{1}{N}\sum_{n=1}^{N}AA^{\mathrm{T}}
Σ=N1n=1∑NAAT