deep learning tips

最新推荐文章于 2021-12-22 22:28:32 发布

一米半

最新推荐文章于 2021-12-22 22:28:32 发布

阅读量229

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013061183/article/details/80250345

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

dropout是为了防止过拟合，实在testing data上面效果不好时用的，而training data效果不好的时候不会考虑这个方法。
vanishing gradient problem和 exploding gradient：梯度消失和梯度爆炸问题，可以参考此篇博客。

Regularization：
L2: 这里写图片描述
不考虑bias是因为我们加入正则是为了让我们的function更平滑，而bias跟function的平滑程度是没有关系的，所以我们通常不会考虑bias。
为什么我们要使function更平滑呢？
因为正则是为了防止过拟合，当以函数过拟合的时候，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，所以只有系数足够大，才能保证导数值很大。如下图：
这里写图片描述。
所以当w足够小的时候，function就会变得平滑，就不容易过拟合。

由上图中可以发现，（1-λη）小于1，所以相当于每次update $w^t$ 都先乘以一个小于1的数，所以如果没有式子的后半部分，那么 $w^t$ 会逐渐趋近于0（但是即使这样 $w^t$ 也会越来越小,因为一直在乘小于1的数）。
L1: 这里写图片描述
sgn(x)是说x是正的时候，函数值为1，是负的时候函数值是-1。
所以意思是说如果 $w^t$ 是正的，那么就每次减去λη。如果是负的就每次加上λη。也是为了让 $w^t$ 绝对值缩小。
它与L2的区别：
因为L1每次都是减去一个固定值，如果w初始很大，update很多次后w可能依然很大。
而L2每次乘以一个固定值，所以w初始很大或者很小都会趋近很小。