CRLB的推导
1. 估计量的衡量标准对于参数估计问题,目前存在着很多估计算法。那么如何去衡量一个估计器(estimator, 也称估计量或估计算法)的性能,我们主要考量以下三个方面
- 1.无偏性(unbiased)。对于参数估计问题,设未知参数θ,估计器模型 θ ^ \hatθ θ^。则有 E [ θ ^ ] = θ E[\hatθ]=θ E[θ^]=θ。对于估计对象为随机变量,则有 E [ θ ^ ] = E [ θ ] E[\hatθ]=E[θ] E[θ^]=E[θ]。我们称满足这个条件的估计量为无偏估计量。
- 2.有效性(availability)。有效性刻画估计量到真实值的偏离程度, D ( θ ^ ) = E [ ( θ ^ − E [ θ ] ) 2 ] D(\hatθ)=E[(\hatθ−E[θ])2] D(θ^)=E[(θ^−E[θ])2],即若存在多种无偏估计器,我们称估计量方差最小的估计器是有效的。
- 3.一致性(consistency)。设 θ ^ \hatθ θ^为未知参数θ的估计量,若当样本数 N → ∞ N→∞ N→∞时,对于任意ϵ>0,有 l i m N → ∞ P ∣ θ ^ − θ ∣ < ϵ = 1 lim_{N→∞}P{|\hatθ−θ|<ϵ}=1 limN→∞P∣θ^−θ∣<ϵ=1。我们称θ^与θ是一致的。一致性所体现的是,当样本总数逐渐增加时,估计量逐渐收敛于真实值。
基于这三点考量,那么很自然我们会问,如何衡量一个无偏估计器是否是有效的。统计信号处理理论中的克拉美罗下界(Cramer-Rao Lower Bound,CRLB)就是衡量一个无偏估计器的有力工具。
2. 克拉美-罗下界(Scale Parameter 标量参数)两个正则化条件
边界依赖两个关于f(x;θ)和T(X)的弱正则化条件:Fisher信息矩阵总是存在。等价地说,对于所有x,如果
f
(
x
;
θ
)
>
0
f(x;θ)>0
f(x;θ)>0,则
∂
l
n
f
(
x
;
θ
)
/
∂
θ
∂lnf(x;θ)/∂θ
∂lnf(x;θ)/∂θ存在并且有限。对x的积分和对θ的微分可以交换顺序。也就是说,在下式右侧有限时,有
∂
∂
θ
[
∫
T
(
x
)
f
(
x
;
θ
)
d
x
]
=
∫
T
(
x
)
[
∂
∂
θ
f
(
x
;
θ
)
]
d
x
\frac{∂}{∂θ}[∫T(x)f(x;θ)dx]=∫T(x)[\frac{∂}{∂θ}f(x;θ)]dx
∂θ∂[∫T(x)f(x;θ)dx]=∫T(x)[∂θ∂f(x;θ)]dx
上述条件通常可以通过以下任意一个条件来确认:函数f(x;θ)在x中有边界支持,并且边界不依赖于θ。函数f(x;θ)有有限的支持,连续可微,并且对于所有θ积分收敛。
其中数学期望对
p
(
x
;
θ
)
p(x;θ)
p(x;θ)取。那么无偏估计量
θ
^
\hat θ
θ^的方差必然满足
D
(
θ
^
)
≥
1
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
=
1
E
[
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
]
D(\hat{\theta}) \geq \frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\mathbb{E}\left[{ \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]}
D(θ^)≥−E[∂θ2∂2lnp(x;θ)]1=E[(∂θ∂lnp(x;θ))2]1
其中导数是在θ的真实值处求,数学期望是对
p
(
x
;
θ
)
p(x;θ)
p(x;θ)取。因此,我们可以说一个无偏估计量
g
(
x
)
g(x)
g(x)达到CRLB,当且仅当,该估计量满足
∂
ln
p
(
x
;
θ
)
∂
θ
=
I
(
θ
)
(
g
(
x
)
−
θ
)
\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta)
∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)
其中
I
(
θ
)
=
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
\mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]
I(θ)=−E[∂θ2∂2lnp(x;θ)]
称为Fisher information。
由于θ是无偏估计,即
∫
x
(
θ
^
−
θ
)
p
(
x
;
θ
)
d
x
=
0
\int_{\boldsymbol{x}} (\hat{\theta}-\theta)p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\\
∫x(θ^−θ)p(x;θ)dx=0
等式两边对θ求偏导有
∫
(
θ
^
−
θ
)
∂
p
(
x
;
θ
)
∂
θ
d
x
=
1
⇒
∫
(
θ
^
−
θ
)
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
1
⇒
∫
(
θ
^
−
θ
)
p
(
x
;
θ
)
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
1
\int (\hat{\theta}-\theta)\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}\text{d}\boldsymbol{x}=1\\ \Rightarrow \int (\hat{\theta}-\theta)\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=1\\ \Rightarrow \int (\hat{\theta}-\theta)\sqrt{p(\boldsymbol{x};\theta)}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\sqrt{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}=1
∫(θ^−θ)∂θ∂p(x;θ)dx=1⇒∫(θ^−θ)∂θ∂lnp(x;θ)p(x;θ)dx=1⇒∫(θ^−θ)p(x;θ)∂θ∂lnp(x;θ)p(x;θ)dx=1
根据柯西-施瓦茨不等式(Cauchy-Schwarz inequality),有
(
∫
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
d
x
)
(
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
)
≥
1
⇒
∫
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
d
x
≥
1
(
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
)
\left({ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}}\right) \left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)\geq 1\\ \Rightarrow \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}\geq \frac{1}{\left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)}
(∫(θ^−θ)2p(x;θ)dx)(∫(∂θ∂lnp(x;θ))2p(x;θ)dx)≥1⇒∫(θ^−θ)2p(x;θ)dx≥(∫(∂θ∂lnp(x;θ))2p(x;θ)dx)1
由正则条件,可知
E
[
∂
ln
p
(
x
;
θ
)
∂
θ
]
=
0
\mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0
E[∂θ∂lnp(x;θ)]=0,对其求导有:
∂
∂
θ
∫
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
0
⇒
∫
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
p
(
x
;
θ
)
+
∂
ln
p
(
x
;
θ
)
∂
θ
∂
p
(
x
;
θ
)
∂
θ
]
d
x
=
0
⇒
∫
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
p
(
x
;
θ
)
d
x
=
−
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
\frac{\partial }{\partial \theta} \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\\ \Rightarrow \int \left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)+\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}}\right]\text{d}\boldsymbol{x}=0\\ \Rightarrow \int \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=-\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}
∂θ∂∫∂θ∂lnp(x;θ)p(x;θ)dx=0⇒∫[∂θ2∂2lnp(x;θ)p(x;θ)+∂θ∂lnp(x;θ)∂θ∂p(x;θ)]dx=0⇒∫∂θ2∂2lnp(x;θ)p(x;θ)dx=−∫(∂θ∂lnp(x;θ))2p(x;θ)dx
所以有如下的结论:
D
(
θ
^
)
≥
1
E
[
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
]
D(\hat{\theta})\geq \frac{1}{\mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]}
D(θ^)≥E[(∂θ∂lnp(x;θ))2]1
柯西-施瓦茨不等式在积分条件下成立的前提是
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
=
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
K
(
θ
)
(\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)} = \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)K(\theta)
(θ^−θ)2p(x;θ)=(∂θ∂lnp(x;θ))2p(x;θ)K(θ)
由于在CRLB边界处
(
∫
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
d
x
)
(
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
)
=
1
\left({ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}}\right) \left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right) = 1\\
(∫(θ^−θ)2p(x;θ)dx)(∫(∂θ∂lnp(x;θ))2p(x;θ)dx)=1
对14式进行积分我们可以得到
∫
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
d
x
=
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
K
(
θ
)
d
x
∫
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
d
x
=
K
(
θ
)
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
K
(
θ
)
=
(
1
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
)
2
\int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}dx =\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)K(\theta)dx\\ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}dx =K(\theta)\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)dx\\ K(\theta) = (\frac{1}{\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)dx})^2 \qquad \qquad
∫(θ^−θ)2p(x;θ)dx=∫(∂θ∂lnp(x;θ))2p(x;θ)K(θ)dx∫(θ^−θ)2p(x;θ)dx=K(θ)∫(∂θ∂lnp(x;θ))2p(x;θ)dxK(θ)=(∫(∂θ∂lnp(x;θ))2p(x;θ)dx1)2
对比2式与18式我们证明
∂
ln
p
(
x
;
θ
)
∂
θ
=
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
(
g
(
x
)
−
θ
)
\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right](g(\boldsymbol{x})-\theta)
∂θ∂lnp(x;θ)=−E[∂θ2∂2lnp(x;θ)](g(x)−θ)
设计最优线性估计器
最优估计器的设计准则1.选择滤波器的结构
2.选择损失函数
3.根据损失函数求解参数
4.对求解的结果进行判断,看是否满足需求
对于线性高斯模型,其模型可以写为
x
=
h
θ
+
w
,
w
∼
N
(
w
∣
a
,
C
w
)
\boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w}, \quad \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{w|a},\boldsymbol{C}_{\boldsymbol{w}})
x=hθ+w,w∼N(w∣a,Cw)
其中
θ
θ
θ是未知参数,
x
∈
R
p
x∈R_p
x∈Rp是观测值,
w
w
w是均值为0,协方差矩阵为
C
w
C_w
Cw的高斯噪声。
对于该模型,其似然函数
p
(
x
;
θ
)
p(x;θ)
p(x;θ)为 :
p
(
x
;
θ
)
=
1
(
2
π
)
p
/
2
∣
C
w
∣
1
/
2
exp
[
−
1
2
(
x
−
h
θ
)
T
C
w
−
1
(
x
−
h
θ
)
]
p(\boldsymbol{x};\theta)=\frac{1}{(2\pi)^{p/2}|\boldsymbol{C}_{\boldsymbol{w}}|^{1/2}} \exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{x}-\boldsymbol{h}\theta)}\right]
p(x;θ)=(2π)p/2∣Cw∣1/21exp[−21(x−hθ)TCw−1(x−hθ)]
采用极大释然估计或者线性最小均方误差估计下面给出最大似然估计的推导过程
等式两边取对数,有
ℓ
(
θ
)
=
l
n
L
(
θ
)
=
−
1
2
(
x
−
h
θ
)
T
C
w
−
1
(
x
−
h
θ
)
+
C
ℓ(\theta)=lnL(\theta)=−\frac{1}{2}(x−h\theta)^TC_w^{-1}(x−h\theta)+C
ℓ(θ)=lnL(θ)=−21(x−hθ)TCw−1(x−hθ)+C
计算对数似然函数关于x的偏导数,有
∂
x
∂
ℓ
(
x
)
=
−
1
2
(
2
h
T
C
w
−
1
x
−
2
h
T
C
w
−
1
H
θ
)
=
0
⇒
θ
M
L
=
(
h
T
C
w
−
1
h
)
h
T
C
w
−
1
x
\frac{∂x}{∂ℓ(x)}=−\frac{1}{2}(2h^TC_w^{-1}x−2h^TC_w^{-1}H\theta)=0 \\ ⇒\theta^{ML}=(h^TC_w^{-1}h)h^TC_w^{-1}\boldsymbol{x} \qquad
∂ℓ(x)∂x=−21(2hTCw−1x−2hTCw−1Hθ)=0⇒θML=(hTCw−1h)hTCw−1x
1.无偏性
E
[
θ
^
]
=
∫
x
θ
^
p
(
x
;
θ
)
d
x
=
(
h
T
C
w
−
1
h
)
−
1
h
T
C
w
−
1
h
θ
=
θ
\mathbb{E}[\hat{\theta}]=\int_{\boldsymbol{x}} \hat{\theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\theta=\theta
E[θ^]=∫xθ^p(x;θ)dx=(hTCw−1h)−1hTCw−1hθ=θ
2.有效性
∂
ln
p
(
x
;
θ
)
∂
θ
=
(
x
−
h
θ
)
T
C
w
−
1
h
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
=
−
h
T
C
w
−
1
h
\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}=(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\\ \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}=-\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}
∂θ∂lnp(x;θ)=(x−hθ)TCw−1h∂θ2∂2lnp(x;θ)=−hTCw−1h
基于上述表述,该系统模型的CRLB为
−
1
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
=
1
h
T
C
w
−
1
h
-\frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}}
−−E[∂θ2∂2lnp(x;θ)]1=hTCw−1h1
而估计器
θ
^
\hat \theta
θ^的方差为
D
(
θ
^
)
=
(
(
h
T
C
w
−
1
h
)
−
1
h
T
C
w
−
1
)
C
w
(
(
h
T
C
w
−
1
h
)
−
1
h
T
C
w
−
1
)
T
=
(
h
T
C
w
−
1
h
)
−
1
D(\hat{\theta})=\left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right) \boldsymbol{C}_{\boldsymbol{w}} \left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right)^T \\ =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1} \qquad \qquad\qquad\qquad
D(θ^)=((hTCw−1h)−1hTCw−1)Cw((hTCw−1h)−1hTCw−1)T=(hTCw−1h)−1
由于
(
h
T
C
w
−
1
h
)
−
1
=
1
h
T
C
w
−
1
h
(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}}
(hTCw−1h)−1=hTCw−1h1,因此,该估计量是有效的,即该无偏估计量θ的方差可以达到CRLB。
3.一致性
将系统模型x=hθ+w代入估计器中,有
θ
^
=
(
h
T
C
w
−
1
h
)
−
1
h
T
C
w
−
1
(
h
θ
+
w
)
=
θ
+
(
h
T
C
w
−
1
h
)
−
1
h
T
C
w
−
1
w
\hat{\theta} =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{h}\theta+\boldsymbol{w})\\ =\theta+(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w}
θ^=(hTCw−1h)−1hTCw−1(hθ+w)=θ+(hTCw−1h)−1hTCw−1w
若假设噪声能量一定,即
C
w
C_w
Cw元素值固定,随着观测样本
p
→
∞
p→∞
p→∞,则噪声的方差
D
(
(
h
T
C
w
−
1
h
)
−
1
h
T
C
w
−
1
w
)
=
1
h
T
c
w
−
1
h
D((\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w})=\frac{1}{\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}}
D((hTCw−1h)−1hTCw−1w)=hTcw−1h1
从公式可以看出,假设噪声
w
w
w的每个元素具有相同的方差,则必然
l
i
m
p
→
∞
h
T
C
w
−
1
h
→
∞
lim_{p→∞}h^TC_w^{-1}h→∞
limp→∞hTCw−1h→∞。因此,当
p
→
∞
p→∞
p→∞时,因此,对于任意
ϵ
>
0
ϵ>0
ϵ>0,有
lim
N
→
∞
P
{
∣
θ
^
−
θ
∣
<
ϵ
}
=
1
\lim\limits_{N\rightarrow \infty} P \left\{{|\hat{\theta}-\theta|<\epsilon}\right\}=1
N→∞limP{∣θ^−θ∣<ϵ}=1
即,该估计量满足一致性。
综上所述:得到的估计器为:
θ
=
(
h
T
C
w
−
1
h
)
h
T
C
w
−
1
x
\theta=(h^TC_w^{-1}h)h^TC_w^{-1}\boldsymbol{x} \qquad
θ=(hTCw−1h)hTCw−1x
用最大似然估计或最小二乘估计解决实际问题
如cs229第一章房价预测数据集,通过某些已知因素去拟合房价,运用最小二乘法求解
那么损失函数写为如下,
J
(
θ
)
=
1
2
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
J{(\theta)}=\frac{1}{2}\sum_{i=1}^m(h_\theta{(x^{(i)})}-y^{(i)})^2
J(θ)=21i=1∑m(hθ(x(i))−y(i))2
其中
h
θ
(
x
)
=
∑
i
=
0
n
θ
i
x
i
=
θ
T
x
h_\theta{(x)}=\sum_{i=0}^n \theta_ix_i=\theta^Tx
hθ(x)=∑i=0nθixi=θTx
将其写为矩阵形式有
X
T
θ
−
y
⃗
=
[
(
x
(
1
)
)
T
θ
⋮
(
x
(
m
)
)
T
θ
]
−
[
y
(
1
)
⋮
y
(
m
)
]
=
[
(
x
(
1
)
)
T
θ
−
y
(
1
)
⋮
(
x
(
m
)
)
T
θ
−
y
(
m
)
]
X^T\theta-\vec{y}=\left[ \begin{matrix}(x^{(1)})^T\theta\\\vdots\\(x^{(m)})^T\theta\end{matrix}\right]-\left[ \begin{matrix}y^{(1)}\\\vdots\\y^{(m)}\end{matrix}\right]\\ = \left[ \begin{matrix}(x^{(1)})^T\theta-y^{(1)}\\\vdots\\(x^{(m)})^T\theta-y^{(m)}\end{matrix}\right]
XTθ−y=⎣⎢⎡(x(1))Tθ⋮(x(m))Tθ⎦⎥⎤−⎣⎢⎡y(1)⋮y(m)⎦⎥⎤=⎣⎢⎡(x(1))Tθ−y(1)⋮(x(m))Tθ−y(m)⎦⎥⎤
那么
J
(
θ
)
J(\theta)
J(θ)可以写为如下的矩阵形式:
1
2
(
X
θ
−
y
⃗
)
T
(
X
θ
−
y
⃗
)
=
1
2
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
=
J
(
θ
)
\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})=\frac{1}{2}\sum_{i=1}^m(h_\theta{(x^{(i)})}-y^{(i)})^2=J{(\theta)}
21(Xθ−y)T(Xθ−y)=21i=1∑m(hθ(x(i))−y(i))2=J(θ)
其形式与第二步相似,我们可以得出如下解的形式:
(39)
X
T
X
θ
=
X
T
y
⃗
⟹
θ
=
(
X
T
X
)
−
1
X
T
y
⃗
X^TX\theta=X^T\vec y\Longrightarrow\theta=(X^TX)^{-1}X^T\vec y\tag{39}
XTXθ=XTy⟹θ=(XTX)−1XTy(39)