Regularization in Linear Regression
转载自:http://blog.sina.com.cn/s/blog_a18c98e5010115ta.html
Regularization是Linear Regression中很重要的一步。
回忆一下上篇内容:
通过使用normal equation,可以找到least square regression的close form结果:
输入是X,输出是Y。
另外:
Overfitting是机器学习中的一个问题。当所构建出的模型的参数个数相对的大于数据的个数的时候,就会发生overfitting。举个例子,如果有一组数据,是二维空间的5个点。一个4次多项式模型就会完全的fit所有的data points(这已经不是一个好结果了)。如果模型是一个5次或者6次多项式,regression的结果就会更糟糕。因为这5个点的分布可能只是linear的。
在Linear Regression里,overfitting现象发生的特点就是会带来非常大的theta值。
假设有下列linear 模型:
M就是theta的个数,当模型参数过多时,theta的值就会变得很大。
考虑到上面因素,Regularized Regression就是在原有cost function基础上加入了对于theta值过大的惩罚。
(下面公式的符号变了一下。。W就是上面的theta。 懒得自己重新写公式了。。。)
L2-Regularization:
Lambda是根据个人喜好的一个惩罚参数,你想要对overfitting多惩罚一点就调大一点。
微分后得到: