Lec2.1 Regularization

Lec2.1 Regularization

Most machine learning tasks are estimation of a function f ^ ( x ) \hat{f}(x) f^(x) parameterized by a vector of parameters θ \theta θ.

A central problem in machine learning is how to make an algorithm that will perform well not just on the training data, but also on new inputs.

机器学习或深度学习会假设一个模型 f ^ ( x ) \hat{f}(x) f^(x),有一组参数 θ \theta θ,然后根据训练数据,学习一组参数。我们想要这个模型不仅要在训练数据上表现好,还要在新的数据上表现好。

True function: f ( x ) f(x) f(x), Estimate function $\hat{f}(x) $

Given a training set T = { ( x i , y i ) } i = 1 n T = \{(x_i, y_i)\}_{i=1}^{n} T={(xi,yi)}i=1n y i = f ( x i ) + ϵ i y_i=f(x_i)+\epsilon_i yi=f(xi)+ϵi,观测值,是真实值加上一个误差, ϵ i ∈ N ( 0 , σ 2 ) \epsilon_i \in N(0, \sigma^2) ϵiN(0,σ2).

对应一个给定的点,计算预测误差和真实误差的关系,如下。并且分两种情况,点在训练集中,和不在训练集中。

for point ( x 0 , y 0 ) (x_0, y_0) (x0,y0),

E [ ( y ^ 0 − y 0 ) 2 ] = E [ ( f ^ 0 − f 0 − ϵ 0 ) 2 ] = E [ ( f ^ 0 − f 0 ) 2 ] − 2 E [ ϵ ( f ^ 0 − f 0 ) ] + σ 2 E[(\hat{y}_0-y_0)^2] \\=E[(\hat{f}_0-f_0-\epsilon_0)^2] \\=E[(\hat{f}_0-f_0)^2] - 2E[\epsilon(\hat{f}_0-f_0)]+\sigma^2 E[(y^0y0)2]=E[(f^0f0ϵ0)2]=E[(f^0f0)2]2E[ϵ(f^0f0)]+σ2

  • Case 1, assume ( x 0 , y 0 ) ∉ T (x_0,y_0)\notin T (x0,y0)/T

    E [ ϵ 0 ( f ^ 0 − f 0 ) ] = E [ ( y 0 − f 0 ) ( f 0 ^ − f 0 ) ] = c o v ( y 0 , f 0 ^ ) = 0 E[\epsilon_0(\hat{f}_0-f_0)] \\=E[(y_0-f_0)(\hat{f_0}-f_0)]\\=cov(y_0,\hat{f_0})\\=0 E[ϵ0(f^0f0)]=E[(y0f0)(f0^f0)]=cov(y0,f0^)=0

    summing up over all m points that are not in T,

    ∑ i = 1 m ( y i ^ − y i ) 2 = ∑ i = 1 m ( f i ^ − f i ) 2 + m σ 2 \sum_{i=1}^m(\hat{y_i}-y_i)^2=\sum_{i=1}^m(\hat{f_i}-f_i)^2+m\sigma^2 i=1m(yi^yi)2=i=1m(fi^fi)2+mσ2

    左侧是estimate error(err),右侧第一项是true error(Err),第二项是一个常数

    E r r = e r r − m σ 2 Err = err -m\sigma^2 Err=errmσ2,这个等式说明,当点不在训练集中时,预测误差可以很好的代表实际误差,这就是交叉验证的原理。

  • Case 2: assume ( x 0 , y 0 ) ∈ T (x_0,y_0)\in T (x0,y0)T

    插播一条定理,Stein’s Lemma, x ∈ N ( θ , σ 2 ) , g ( x ) x\in N(\theta,\sigma^2), g(x) xN(θ,σ2),g(x)可导,则 E [ g ( x ) ( x − θ ) ] = σ 2 ∂ g ( x ) ∂ x E[g(x)(x-\theta)]=\sigma^2\frac{\partial g(x)}{\partial x} E[g(x)(xθ)]=σ2xg(x)

    E [ ϵ 0 ( f 0 ^ − f 0 ) ] = σ 2 ∂ ( f 0 ^ − f 0 ) ∂ ϵ 0 = σ 2 ∂ f 0 ^ ∂ y 0 ∂ y 0 ∂ ϵ 0 = σ 2 ∂ f 0 ^ ∂ y 0 = σ 2 D 0 E[\epsilon_0(\hat{f_0}-f_0)] \\=\sigma^2 \frac{\partial(\hat{f_0}-f_0)}{\partial \epsilon_0}\\=\sigma^2\frac{\partial \hat{f_0}}{\partial y_0}\frac{\partial y_0}{\partial \epsilon_0}\\=\sigma^2\frac{\partial \hat{f_0}}{\partial y_0}\\=\sigma^2 D_0 E[ϵ0(f0^f0)]=σ2ϵ0(f0^f0)=σ2y0f0^ϵ0y0=σ2y0f0^=σ2D0

    D 0 D_0 D0代表模型的复杂程度。

    summing up over all m points that are in T,

    ∑ i = 1 m ( y i ^ − y i ) 2 = ∑ i = 1 m ( f i ^ − f i ) 2 − 2 σ 2 ∑ i = 1 m D i + m σ 2 \sum_{i=1}^m(\hat{y_i}-y_i)^2=\sum_{i=1}^m (\hat{f_i}-f_i)^2-2\sigma^2\sum_{i=1}^mD_i+m\sigma^2 i=1m(yi^yi)2=i=1m(fi^fi)22σ2i=1mDi+mσ2

    训练误差(err)不能代表真实误差(Err), true error is estimate error plus a bias.

    E r r = e r r + 2 σ 2 ∑ i = 1 m D i − m σ 2 Err=err+2\sigma^2\sum_{i=1}^m D_i - m \sigma^2 Err=err+2σ2i=1mDimσ2.

    这就是正则化Regularization的原因 J ( θ ; x , y ) + Ω ( θ ) J(\theta;x,y)+\Omega(\theta) J(θ;x,y)+Ω(θ),在训练误差的基础上加上一个与模型复杂度相关的偏置。
    theta;x,y)+\Omega(\theta)$,在训练误差的基础上加上一个与模型复杂度相关的偏置。
    这里可以看上图中的函数图,随着模型复杂度的增加,训练误差逐渐减少,真实误差,先减少后增大。

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下 4载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
学校大创竞赛管理系统,学生上报项目内容,学院、教务处、评审专家评审。SpringBoot、SpringCloud、SpringSecurity、redis、Mysql、swagger、fastdfs、maven、vue、webpack.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值