机器学习基石-作业三-第2题分析以及通过H证明EIN的讨论

题目:

 


 

这是机器学习基石作业三种的第二小题,额,在网上看了很多解答(解答也不多)感觉都没有说清楚为什么,所以励志清楚滴解决一下这个问题,经过努力,自认为得到了详细的解答,内容如下:

(一)解决选项(e):

当t=1时:

H=X(X^TX)^{-1}X^T

当t>=2时,假设H^t=H,则有 

H^{t+1}=H^{t}X(X^TX)^{-1}X^T=X(X^TX)^{-1}[(X^TX)(X^TX)^{-1}]X^T=X(X^TX)^{-1}IX^T=X(X^TX)^{-1}X^T=H
所以,H^t=H (t\geq 1),即H为幂等矩阵,那么最终H^{1126}=H就必然成立了。

所以选项(e)是正确的。

 

(二)解决选项(c)(d):

\lambda为H的任意特征值(对应于某个非零向量\vec{a}),则{\lambda }^2H^2的特征值(对应于同一个非零向量\vec{a}

=>\lambda ^2-\lambdaH^2-H的特征值,又H^2=H,所以\lambda ^2-\lambda是0矩阵的任意特征值;而0矩阵的特征值只能为0;

=>\lambda ^2-\lambda=0;=>\lambda =1\lambda =0

又 trace(H)=trace(X(X^TX)^{-1}X^T)=trace((X^TX)(X^TX)^{-1}){原因trace(ABC)=trace(CAB)}

由题可知,X^TX可逆,且X\in \mathbb{R}^{N\times (d+1)},所以trace(H)=trace(I_{(d+1)\times (d+1)})=d+1

而trace(H)等于所有特征值的和,其值为d+1,而特征值只能为0或1,所以必有d+1个特征值恰好是1;

综上(c)错误,(d)正确。

 

(三)解决选项(a)(b):

H^T=(X(X^TX)^{-1}X^T)^T=X[(X^TX)^{-1}]TX^T=X(X^TX)^{-1}X^T=H

所以H是对称矩阵,且H\in \mathbb{R}^{N\times N},

因为实对称矩阵为半正定的充要条件是:A的特征值全部非负。所以由(二)可知H为半正定矩阵。(a正确)

而对于实对称矩阵其秩为非零特征值的个数,由(二)知为d+1;所以当N>(d+1)的时候,H必然是不可逆的。(b错误)

 


在解决了问题以后,我们就来看看林老师在课程中提出的通过H来证明线性回归的E_{in}=noise level\times(1-\frac{d+1}{N}).

最重要的就是先理解这幅图了。

首先,这是一个什么空间? 这是一个以所有的样本对应的预测值为坐标轴的值空间。

假设样本为\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\},那么\vec{y}=[y_{1},y_{2},..y_{n}]^T。span of X则是整个假设空间H的值空间:

span of X= \{[h_{i}(x_{1}),h_{i}(x_{2}),...h_{i}(x_{n})]^T|h_{i}\in H\}

同时再增加一些假设(个人认为需要加的):noise的来源只是对于给定的\vec{x}观察到了错误的y,而\vec{x}本身不产生noise。

并且,对于每一个\vec{x}的真实观测值必然包含于H,也就是我们的假设空间是可分的(定义来源于《西瓜书》)。这样

也就说明了f(\vec{x})\inH必然包含于span of X。因为y-\hat{y}垂直于span of X,所以y-\hat{y}垂直于f(x),那么f(x)*(I-H),也就是f(x)

y-\hat{y}投影的值为0。

这样,很自然的就有如下的公式:

E_{in}(W_{LIN})=\frac{1}{N}\left \| y-\hat{y} \right \|^2=\frac{1}{N}\left \| (I-H)y\right \|^2=\frac{1}{N}\left \| (I-H)(f(x)+noise)\right \|^2=\frac{1}{N}\left \| (I-H)noise\right \|^2=\frac{1}{N}\left \| (I-H)\right \|^2\left \| noise \right \|^2

设noise level = \left \| noise \right \|^2

而前面的I-H则是一个矩阵,而\left \| {I-H} \right \|^2则是I-H的范数的平方,我们用F范数来刻画的话,则

\left \| {I-H} \right \|_{F}^{2}=tr((I-H)^T(I-H))=tr((I-H)(I-H))=tr(I-H)=N-(d+1)

所以E_{in}(W_{LIN})=noise level*\frac{1}{N}​​​​​​(N-(d+1))= {noise\ level}\times (1-{\frac{d+1}{N}})

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值