机器学习中regularization正则化(加入weight_decay)的作用

转载 2015年11月19日 10:51:44

Regularization in Linear Regression

转载自:http://blog.sina.com.cn/s/blog_a18c98e5010115ta.html

 

RegularizationLinear Regression中很重要的一步。

回忆一下上篇内容:

通过使用normal equation,可以找到least square regressionclose form结果:

输入是X,输出是Y

新宇教你机器学习之 <wbr>Regularization <wbr>in <wbr>Linear <wbr>Regression

另外:

Overfitting是机器学习中的一个问题。当所构建出的模型的参数个数相对的大于数据的个数的时候,就会发生overfitting举个例子,如果有一组数据,是二维空间的5个点。一个4次多项式模型就会完全的fit所有的data points(这已经不是一个好结果了)。如果模型是一个5次或者6次多项式,regression的结果就会更糟糕。因为这5个点的分布可能只是linear的。

Linear Regression里,overfitting现象发生的特点就是会带来非常大的theta值。

假设有下列linear 模型:

新宇教你机器学习之 <wbr>Regularization <wbr>in <wbr>Linear <wbr>Regression

M就是theta的个数,当模型参数过多时,theta的值就会变得很大。

 

考虑到上面因素,Regularized Regression就是在原有cost function基础上加入了对于theta值过大的惩罚。

(下面公式的符号变了一下。。W就是上面的theta。 懒得自己重新写公式了。。。)


L2-Regularization

新宇教你机器学习之 <wbr>Regularization <wbr>in <wbr>Linear <wbr>Regression

Lambda是根据个人喜好的一个惩罚参数,你想要对overfitting多惩罚一点就调大一点


微分后得到:

新宇教你机器学习之 <wbr>Regularization <wbr>in <wbr>Linear <wbr>Regression
新宇教你机器学习之 <wbr>Regularization <wbr>in <wbr>Linear <wbr>Regression

Caffe中learning rate 和 weight decay 的理解

Caffe中learning rate 和 weight decay 的理解 在caffe.proto中 对caffe网络中出现的各项参数做了详细的解释。 1.关于learning rate   op...
  • u010025211
  • u010025211
  • 2015年11月26日 14:59
  • 21010

超参数momentum与weight-decay的作用

超参数momentum与weight-decay的作用
  • u012938704
  • u012938704
  • 2016年10月05日 17:09
  • 3081

机器学习中的范数规则化之(一)L0、L1与L2范数

机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.csdn.net/zouxy09        今天我们聊聊机器学习中出现的非常频繁的问题:过拟合...
  • zouxy09
  • zouxy09
  • 2014年05月04日 12:32
  • 359878

深度学习超参数简单理解------>learning rate,weight decay和momentum

说到这些参数就会想到Stochastic Gradient Descent (SGD)!其实这些参数在caffe.proto中 对caffe网络中出现的各项参数做了详细的解释。 Learni...
  • AMDS123
  • AMDS123
  • 2017年04月07日 19:21
  • 11996

【深度学习】caffe 中的一些参数介绍

caffe 是非常强大的深度学习框架,作为使用者,我们当然要对它的一些配置参数有一定的认识,本文简单介绍了caffe中的一些参数,持续更新中......
  • cyh24
  • cyh24
  • 2016年05月30日 14:33
  • 30066

神经网络中weight decay起到的做用是什么?momentum呢?normalization呢?

作者:陈永志 链接:https://www.zhihu.com/question/24529483/answer/114711446 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转...
  • xuxiatian
  • xuxiatian
  • 2017年05月26日 16:48
  • 523

Caffe中learning rate 和 weight decay 的理解

来源:http://blog.csdn.net/u010025211/article/details/50055815 在caffe.proto中 对caffe网络中出现的各项参数做了详细的解释...
  • caozhantao
  • caozhantao
  • 2016年08月11日 09:10
  • 1928

learning rate 和weight decay

首先,假设我们有loss function为 E(w)E(\mathbf{w})梯度下降告诉我们在 EE的最快速下降的方向修改权值: wi←wi−η∂E∂wi,\begin{equation}...
  • laoxuan2011
  • laoxuan2011
  • 2016年10月08日 10:28
  • 555

weight decay 权值衰减

原文地址~::点我 在机器学习中,常常会出现overfitting,网络权值越大往往overfitting的程度越高,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常...
  • wadqse123
  • wadqse123
  • 2015年03月26日 20:03
  • 6697

优化方法,一些重要参数learning rate,weight decay,momentum,learing rate decay

http://blog.csdn.net/lien0906/article/details/47399823 http://blog.csdn.net/u014114990/articl...
  • pandav5
  • pandav5
  • 2016年03月27日 20:45
  • 7004
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习中regularization正则化(加入weight_decay)的作用
举报原因:
原因补充:

(最多只允许输入30个字)