信号与估计

本文介绍了Cramer-Rao Lower Bound(CRLB)及其在评估无偏估计器性能中的作用,详细推导了CRLB的数学原理,并通过最大似然估计和线性最小均方误差估计展示了如何应用于实际问题,特别是在信号处理中的最优线性估计器设计。
摘要由CSDN通过智能技术生成

CRLB的推导

1. 估计量的衡量标准

对于参数估计问题,目前存在着很多估计算法。那么如何去衡量一个估计器(estimator, 也称估计量或估计算法)的性能,我们主要考量以下三个方面

  • 1.无偏性(unbiased)。对于参数估计问题,设未知参数θ,估计器模型 θ ^ \hatθ θ^。则有 E [ θ ^ ] = θ E[\hatθ]=θ E[θ^]=θ。对于估计对象为随机变量,则有 E [ θ ^ ] = E [ θ ] E[\hatθ]=E[θ] E[θ^]=E[θ]。我们称满足这个条件的估计量为无偏估计量。
  • 2.有效性(availability)。有效性刻画估计量到真实值的偏离程度, D ( θ ^ ) = E [ ( θ ^ − E [ θ ] ) 2 ] D(\hatθ)=E[(\hatθ−E[θ])2] D(θ^)=E[(θ^E[θ])2],即若存在多种无偏估计器,我们称估计量方差最小的估计器是有效的。
  • 3.一致性(consistency)。设 θ ^ \hatθ θ^为未知参数θ的估计量,若当样本数 N → ∞ N→∞ N时,对于任意ϵ>0,有 l i m N → ∞ P ∣ θ ^ − θ ∣ &lt; ϵ = 1 lim_{N→∞}P{|\hatθ−θ|&lt;ϵ}=1 limNPθ^θ<ϵ=1。我们称θ^与θ是一致的。一致性所体现的是,当样本总数逐渐增加时,估计量逐渐收敛于真实值。

基于这三点考量,那么很自然我们会问,如何衡量一个无偏估计器是否是有效的。统计信号处理理论中的克拉美罗下界(Cramer-Rao Lower Bound,CRLB)就是衡量一个无偏估计器的有力工具。

2. 克拉美-罗下界(Scale Parameter 标量参数)

两个正则化条件

边界依赖两个关于f(x;θ)和T(X)的弱正则化条件:Fisher信息矩阵总是存在。等价地说,对于所有x,如果 f ( x ; θ ) &gt; 0 f(x;θ)&gt;0 f(x;θ)>0,则 ∂ l n f ( x ; θ ) / ∂ θ ∂lnf(x;θ)/∂θ lnf(x;θ)/θ存在并且有限。对x的积分和对θ的微分可以交换顺序。也就是说,在下式右侧有限时,有
∂ ∂ θ [ ∫ T ( x ) f ( x ; θ ) d x ] = ∫ T ( x ) [ ∂ ∂ θ f ( x ; θ ) ] d x \frac{∂}{∂θ}[∫T(x)f(x;θ)dx]=∫T(x)[\frac{∂}{∂θ}f(x;θ)]dx θ[T(x)f(x;θ)dx]=T(x)[θf(x;θ)]dx
上述条件通常可以通过以下任意一个条件来确认:函数f(x;θ)在x中有边界支持,并且边界不依赖于θ。函数f(x;θ)有有限的支持,连续可微,并且对于所有θ积分收敛。

其中数学期望对 p ( x ; θ ) p(x;θ) p(x;θ)取。那么无偏估计量 θ ^ \hat θ θ^的方差必然满足
D ( θ ^ ) ≥ 1 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = 1 E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] D(\hat{\theta}) \geq \frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\mathbb{E}\left[{ \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]} D(θ^)E[θ22lnp(x;θ)]1=E[(θlnp(x;θ))2]1
其中导数是在θ的真实值处求,数学期望是对 p ( x ; θ ) p(x;θ) p(x;θ)取。因此,我们可以说一个无偏估计量 g ( x ) g(x) g(x)达到CRLB,当且仅当,该估计量满足
∂ ln ⁡ p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta) θlnp(x;θ)=I(θ)(g(x)θ)
其中
I ( θ ) = − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] \mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] I(θ)=E[θ22lnp(x;θ)]
称为Fisher information。

3. 克拉美罗下界 推导证明

由于θ是无偏估计,即

∫ x ( θ ^ − θ ) p ( x ; θ ) d x = 0 \int_{\boldsymbol{x}} (\hat{\theta}-\theta)p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\\ x(θ^θ)p(x;θ)dx=0
等式两边对θ求偏导有
∫ ( θ ^ − θ ) ∂ p ( x ; θ ) ∂ θ d x = 1 ⇒ ∫ ( θ ^ − θ ) ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1 ⇒ ∫ ( θ ^ − θ ) p ( x ; θ ) ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 1 \int (\hat{\theta}-\theta)\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}\text{d}\boldsymbol{x}=1\\ \Rightarrow \int (\hat{\theta}-\theta)\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=1\\ \Rightarrow \int (\hat{\theta}-\theta)\sqrt{p(\boldsymbol{x};\theta)}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\sqrt{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}=1 (θ^θ)θp(x;θ)dx=1(θ^θ)θlnp(x;θ)p(x;θ)dx=1(θ^θ)p(x;θ) θlnp(x;θ)p(x;θ) dx=1
根据柯西-施瓦茨不等式(Cauchy-Schwarz inequality),有
( ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x ) ( ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) ≥ 1 ⇒ ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x ≥ 1 ( ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) \left({ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}}\right) \left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)\geq 1\\ \Rightarrow \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}\geq \frac{1}{\left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)} ((θ^θ)2p(x;θ)dx)((θlnp(x;θ))2p(x;θ)dx)1(θ^θ)2p(x;θ)dx((θlnp(x;θ))2p(x;θ)dx)1
由正则条件,可知 E [ ∂ ln ⁡ p ( x ; θ ) ∂ θ ] = 0 \mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0 E[θlnp(x;θ)]=0,对其求导有:
∂ ∂ θ ∫ ∂ ln ⁡ p ( x ; θ ) ∂ θ p ( x ; θ ) d x = 0 ⇒ ∫ [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 p ( x ; θ ) + ∂ ln ⁡ p ( x ; θ ) ∂ θ ∂ p ( x ; θ ) ∂ θ ] d x = 0 ⇒ ∫ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 p ( x ; θ ) d x = − ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x \frac{\partial }{\partial \theta} \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\\ \Rightarrow \int \left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)+\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}}\right]\text{d}\boldsymbol{x}=0\\ \Rightarrow \int \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=-\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} θθlnp(x;θ)p(x;θ)dx=0[θ22lnp(x;θ)p(x;θ)+θlnp(x;θ)θp(x;θ)]dx=0θ22lnp(x;θ)p(x;θ)dx=(θlnp(x;θ))2p(x;θ)dx
所以有如下的结论:
D ( θ ^ ) ≥ 1 E [ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 ] D(\hat{\theta})\geq \frac{1}{\mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]} D(θ^)E[(θlnp(x;θ))2]1
柯西-施瓦茨不等式在积分条件下成立的前提是

( θ ^ − θ ) 2 p ( x ; θ ) = ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) K ( θ ) (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)} = \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)K(\theta) (θ^θ)2p(x;θ)=(θlnp(x;θ))2p(x;θ)K(θ)
由于在CRLB边界处
( ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x ) ( ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) = 1 \left({ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}}\right) \left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right) = 1\\ ((θ^θ)2p(x;θ)dx)((θlnp(x;θ))2p(x;θ)dx)=1
对14式进行积分我们可以得到
∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x = ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) K ( θ ) d x ∫ ( θ ^ − θ ) 2 p ( x ; θ ) d x = K ( θ ) ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x K ( θ ) = ( 1 ∫ ( ∂ ln ⁡ p ( x ; θ ) ∂ θ ) 2 p ( x ; θ ) d x ) 2 \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}dx =\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)K(\theta)dx\\ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}dx =K(\theta)\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)dx\\ K(\theta) = (\frac{1}{\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)dx})^2 \qquad \qquad (θ^θ)2p(x;θ)dx=(θlnp(x;θ))2p(x;θ)K(θ)dx(θ^θ)2p(x;θ)dx=K(θ)(θlnp(x;θ))2p(x;θ)dxK(θ)=((θlnp(x;θ))2p(x;θ)dx1)2
对比2式与18式我们证明
∂ ln ⁡ p ( x ; θ ) ∂ θ = − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] ( g ( x ) − θ ) \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right](g(\boldsymbol{x})-\theta) θlnp(x;θ)=E[θ22lnp(x;θ)](g(x)θ)

设计最优线性估计器

最优估计器的设计准则
1.选择滤波器的结构
2.选择损失函数
3.根据损失函数求解参数
4.对求解的结果进行判断,看是否满足需求

对于线性高斯模型,其模型可以写为

x = h θ + w , w ∼ N ( w ∣ a , C w ) \boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w}, \quad \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{w|a},\boldsymbol{C}_{\boldsymbol{w}}) x=hθ+w,wN(wa,Cw)
其中 θ θ θ是未知参数, x ∈ R p x∈R_p xRp是观测值, w w w是均值为0,协方差矩阵为 C w C_w Cw的高斯噪声。
对于该模型,其似然函数 p ( x ; θ ) p(x;θ) p(x;θ)为 :
p ( x ; θ ) = 1 ( 2 π ) p / 2 ∣ C w ∣ 1 / 2 exp ⁡ [ − 1 2 ( x − h θ ) T C w − 1 ( x − h θ ) ] p(\boldsymbol{x};\theta)=\frac{1}{(2\pi)^{p/2}|\boldsymbol{C}_{\boldsymbol{w}}|^{1/2}} \exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{x}-\boldsymbol{h}\theta)}\right] p(x;θ)=(2π)p/2Cw1/21exp[21(xhθ)TCw1(xhθ)]
采用极大释然估计或者线性最小均方误差估计下面给出最大似然估计的推导过程
等式两边取对数,有
ℓ ( θ ) = l n L ( θ ) = − 1 2 ​ ( x − h θ ) T C w − 1 ( x − h θ ) + C ℓ(\theta)=lnL(\theta)=−\frac{1}{2}​(x−h\theta)^TC_w^{-1}(x−h\theta)+C (θ)=lnL(θ)=21(xhθ)TCw1(xhθ)+C
计算对数似然函数关于x的偏导数,有
∂ x ∂ ℓ ( x ) ​ = − 1 2 ​ ( 2 h T C w − 1 x − 2 h T C w − 1 H θ ) = 0 ⇒ θ M L ​ = ( h T C w − 1 h ) h T C w − 1 x \frac{∂x}{∂ℓ(x)}​=−\frac{1}{2}​(2h^TC_w^{-1}x−2h^TC_w^{-1}H\theta)=0 \\ ⇒\theta^{ML}​=(h^TC_w^{-1}h)h^TC_w^{-1}\boldsymbol{x} \qquad (x)x=21(2hTCw1x2hTCw1Hθ)=0θML=(hTCw1h)hTCw1x
1.无偏性
E [ θ ^ ] = ∫ x θ ^ p ( x ; θ ) d x = ( h T C w − 1 h ) − 1 h T C w − 1 h θ = θ \mathbb{E}[\hat{\theta}]=\int_{\boldsymbol{x}} \hat{\theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\theta=\theta E[θ^]=xθ^p(x;θ)dx=(hTCw1h)1hTCw1hθ=θ

2.有效性
∂ ln ⁡ p ( x ; θ ) ∂ θ = ( x − h θ ) T C w − 1 h ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 = − h T C w − 1 h \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}=(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\\ \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}=-\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} θlnp(x;θ)=(xhθ)TCw1hθ22lnp(x;θ)=hTCw1h
基于上述表述,该系统模型的CRLB为
− 1 − E [ ∂ 2 ln ⁡ p ( x ; θ ) ∂ θ 2 ] = 1 h T C w − 1 h -\frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} E[θ22lnp(x;θ)]1=hTCw1h1
而估计器 θ ^ \hat \theta θ^的方差为
D ( θ ^ ) = ( ( h T C w − 1 h ) − 1 h T C w − 1 ) C w ( ( h T C w − 1 h ) − 1 h T C w − 1 ) T = ( h T C w − 1 h ) − 1 D(\hat{\theta})=\left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right) \boldsymbol{C}_{\boldsymbol{w}} \left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right)^T \\ =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1} \qquad \qquad\qquad\qquad D(θ^)=((hTCw1h)1hTCw1)Cw((hTCw1h)1hTCw1)T=(hTCw1h)1
由于 ( h T C w − 1 h ) − 1 = 1 h T C w − 1 h (\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} (hTCw1h)1=hTCw1h1,因此,该估计量是有效的,即该无偏估计量θ的方差可以达到CRLB。
3.一致性
将系统模型x=hθ+w代入估计器中,有
θ ^ = ( h T C w − 1 h ) − 1 h T C w − 1 ( h θ + w ) = θ + ( h T C w − 1 h ) − 1 h T C w − 1 w \hat{\theta} =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{h}\theta+\boldsymbol{w})\\ =\theta+(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w} θ^=(hTCw1h)1hTCw1(hθ+w)=θ+(hTCw1h)1hTCw1w
若假设噪声能量一定,即 C w C_w Cw元素值固定,随着观测样本 p → ∞ p→∞ p,则噪声的方差
D ( ( h T C w − 1 h ) − 1 h T C w − 1 w ) = 1 h T c w − 1 h D((\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w})=\frac{1}{\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} D((hTCw1h)1hTCw1w)=hTcw1h1
从公式可以看出,假设噪声 w w w的每个元素具有相同的方差,则必然 l i m p → ∞ h T C w − 1 h → ∞ lim_{p→∞}h^TC_w^{-1}h→∞ limphTCw1h。因此,当 p → ∞ p→∞ p时,因此,对于任意 ϵ &gt; 0 ϵ&gt;0 ϵ>0,有
lim ⁡ N → ∞ P { ∣ θ ^ − θ ∣ &lt; ϵ } = 1 \lim\limits_{N\rightarrow \infty} P \left\{{|\hat{\theta}-\theta|&lt;\epsilon}\right\}=1 NlimP{θ^θ<ϵ}=1
即,该估计量满足一致性。
综上所述:得到的估计器为: θ = ( h T C w − 1 h ) h T C w − 1 x \theta=(h^TC_w^{-1}h)h^TC_w^{-1}\boldsymbol{x} \qquad θ=(hTCw1h)hTCw1x

用最大似然估计或最小二乘估计解决实际问题

如cs229第一章房价预测数据集,通过某些已知因素去拟合房价,运用最小二乘法求解

那么损失函数写为如下,
J ( θ ) = 1 2 ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J{(\theta)}=\frac{1}{2}\sum_{i=1}^m(h_\theta{(x^{(i)})}-y^{(i)})^2 J(θ)=21i=1m(hθ(x(i))y(i))2
其中 h θ ( x ) = ∑ i = 0 n θ i x i = θ T x h_\theta{(x)}=\sum_{i=0}^n \theta_ix_i=\theta^Tx hθ(x)=i=0nθixi=θTx
将其写为矩阵形式有
X T θ − y ⃗ = [ ( x ( 1 ) ) T θ ⋮ ( x ( m ) ) T θ ] − [ y ( 1 ) ⋮ y ( m ) ] = [ ( x ( 1 ) ) T θ − y ( 1 ) ⋮ ( x ( m ) ) T θ − y ( m ) ] X^T\theta-\vec{y}=\left[ \begin{matrix}(x^{(1)})^T\theta\\\vdots\\(x^{(m)})^T\theta\end{matrix}\right]-\left[ \begin{matrix}y^{(1)}\\\vdots\\y^{(m)}\end{matrix}\right]\\ = \left[ \begin{matrix}(x^{(1)})^T\theta-y^{(1)}\\\vdots\\(x^{(m)})^T\theta-y^{(m)}\end{matrix}\right] XTθy =(x(1))Tθ(x(m))Tθy(1)y(m)=(x(1))Tθy(1)(x(m))Tθy(m)
那么 J ( θ ) J(\theta) J(θ)可以写为如下的矩阵形式:
1 2 ( X θ − y ⃗ ) T ( X θ − y ⃗ ) = 1 2 ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 = J ( θ ) \frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})=\frac{1}{2}\sum_{i=1}^m(h_\theta{(x^{(i)})}-y^{(i)})^2=J{(\theta)} 21(Xθy )T(Xθy )=21i=1m(hθ(x(i))y(i))2=J(θ)
其形式与第二步相似,我们可以得出如下解的形式:
(39) X T X θ = X T y ⃗ ⟹ θ = ( X T X ) − 1 X T y ⃗ X^TX\theta=X^T\vec y\Longrightarrow\theta=(X^TX)^{-1}X^T\vec y\tag{39} XTXθ=XTy θ=(XTX)1XTy (39)

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值