Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization
This course from Deeplearning.AI
Studying notes
In logestic regression, because W related with a lot paremeter and b is just a number , so andrew will ignore b, but you can if you want .
L2 regularization。Andrew 表示L2是最常见的 regularization. 正则化。
一下两篇说明了正则化。
什么是 L1/L2 正则化 (Regularization) - 知乎
最常见的L2 regrelization 是参数的平方,而L1是参数的绝对值
(插播一条概念: overfitting 中文名字叫 过拟合)
这里的参数是指原方程式的参数啊,注意!!
“L2 针对于这种变动, 白点的移动不会太大, 而 L1的白点则可能跳到许多不同的地方 , 因为这些地方的总误差都是差不多的. 侧面说明了 L1 解的不稳定性“。从图像可以了解到l1的不稳定性。从方程式的复杂程度也可以理解。如果方程式本身越简单,证明‘碰巧’遇到相同具体的情况会变多。然而越复杂的方程式,这种碰巧发生的程度和概率也会越低。不知道这样理解可不可以?
anyway,反正就是l2更加精准,而l1 发生碰巧的情况更多,从而产生误差的可能性更多。
最后,为了控制这种正规化的强度, 我们会加上一个参数 lambda, 并且通过 交叉验证 cross validation 来选择比较好的 lambda. 这时, 为了统一化这类型的正则化方法, 我们还会使用 p 来代表对参数的正则化程度. 这就是这一系列正则化方法的最终的表达形式啦.
lambda 是另外一个需要turn的parameter。 但是这里我们称呼他为lambd, 因为lambda本身是python里面的一个参数,为了不冲突,我们用lambd。
另一个引入的概念是Frobunius Norm.
先说结论, lambd 和w 是反向变化的 。
why regrenalization reduce overfitting?
结论:因为让他更加偏向于线性方程式。
第三章: Another powerful regrelization is drop out regrenalization, the most comman one is