Lecture 14: Regularization 规则化
14-1 规则化假说集
regularization:the magic 从多次的hypothesis set走回到低次的hypothesis set,避免了overfit的发生。
ill-posed problems:指有很多的函数都满足solution,所以要限制一下,不然会出现问题。
so how to step back?
高次的hypothesis和低次的区别只是高次项系数为0,这也就是为什么在图中,H2包括在H10中。
那么当把高次8个系数设为0修改为任意8个系数设为0时:
那么H2'可以视作H2和H10的中间选项,比H2要更灵活,比H10要更少冒险。
但有一个bad news:找到一个好的sparse H2',是一个NP-hard问题。
对H2'的进一步改写,算w^2求和小于一个定值的时候,对应的hypothesis为:
那么H(C)和H2'是有overlap的,但不是完全相同。
显而易见地,随着C的增大,有如下包含关系:
14-2 Weight Decay Regularization
上一节的公式写出来为:
可以画图表示为:
现在在点w上,要朝着负梯度的方向滚下去,一路很顺利的话到点wlin,即linear regression的solution。
而限制条件,是w要在半径是根号C的圆里面,所以大部分情况下,w在圆的边际,那么这时要判断w是否是最佳解。
判断依据:在符合条件的情况下,是否还能从山坡上往下滚。(不能出限制的圆)
所以要向垂直于圆的法向量normal的地方走,即绿色箭头的方向。
那也就是说,如果现在是最好的解wREG上时,有:
此时:
解方程式后得到:
如果知道numda,问题会变得简单很多。
numda大的时候会underfit,太小会overfit。
只需要一点点的numda:a little regularization goes a long way。
numda越大,则w越短越好,C较小比较好,所以这种regularization叫做weight decay regularization,倾向于把系数变小。
14-3 规则化和VC维理论
这节基本没听懂。。不写了
14-4 General Regularizers
规则化的选择方式: target-dependent, plausible or friendly
区分一下L2 Regularizer和L1 Regularizer的区别
noise越高,regularization能发挥越好的效果。