【李宏毅机器学习】Tips for Deep Learning（p14）学习笔记

最新推荐文章于 2023-02-15 14:32:21 发布

duanyuchen

最新推荐文章于 2023-02-15 14:32:21 发布

阅读量321

点赞数 4

分类专栏： Machine Learning 文章标签：机器学习李宏毅学习笔记

本文链接：https://blog.csdn.net/weixin_41894030/article/details/107505996

版权

Machine Learning 专栏收录该内容

20 篇文章 3 订阅

订阅专栏

李宏毅机器学习学习笔记汇总
 课程链接

文章目录

Recipe if Deep Learning

Recipe if Deep Learning

不断修改模型，使其在训练集上可以达到好的结果，再把其运用到测试集上，若效果不好，则是过拟合了。
在这里插入图片描述
但是！

Do not always blame Overfitting

不要所有不好的performance就说overfitting
如图中，56层的performance的test erro比20层的高，这不一定是过拟合了，因为再去检查训练集上的error，可能发现56层的依然比20层的高。
在这里插入图片描述
56层比20层效果差，未必是因为欠拟合，他的网络层数多，未必是能力不行。

针对不同的状况使用不同的方法

dropout只有在测试集上模型效果不好的时候运用，而不是在训练集上模型效果不好的时候用，那样只会越train越差。

在这里插入图片描述

在训练集上效果不好

更换一些新的激活函数。
在这里插入图片描述
在以前使用sigmoid激活函数的时候，Deeper usually does not imply better！这个在训练集上就没有训练好，所以不是过拟合。

Vanishing Gradient Problem梯度消失

上图中出现的原因就是梯度消失，在靠近输入层的地方参数对于最后loss function的微分是很小的，而在靠近输出层的地方，对于最后loss function的微分是很大的。

所以在设定同样的learning rate的时候，在靠近输入层的地方参数的更新很慢，在靠近输出层的地方参数的更新很快。

在输入几乎还是random的时候，输出就几乎已经converge收敛。在输入几乎还是random的时候，输出就根据这些random的数据找到了局部最优，然后就收敛了，loss的下降速率很慢。

此刻模型效果很差，因为他converge是基于random的参数得到的output 来converge的。
在这里插入图片描述

sigmoid本身就把正负无穷的数压缩在0到1之间，所以导致敏感度低，如果是指数就是放大差距，这总感觉

加上一个参数也不行
在这里插入图片描述

如何解决——ReLU

好处：
1、计算速度快
2、有生物学上的理由
3、无穷多的有着不同bias的sigmoid的叠加结果
4、可以解决梯度消失的问题
在这里插入图片描述

在这里插入图片描述
把output为0的neural拿掉，剩下的neural都是output=input的linear的时候，网络是一个瘦长的线性网络。

之前梯度消失是因为：sigmoid会把大的input变成小的output，线性的output=input，不会有递减的情况发生。
在这里插入图片描述

maxout！妙啊！
ReLU是maxout可以做到的！

在测试集上效果不好

Review

使用一阶导数来估计二阶导数
在这里插入图片描述
梯度大，学习率也大，每次更新的幅度就很大，比较容易跳过最优点
陡峭的地方学习率要小，平坦的地方学习率要大

给现在新的gradient大的weight，给过去的旧的gradient小的weight。
在这里插入图片描述
在高原很慢，卡在鞍点，卡在局部最优
局部最优在一个很大的神经网络中，可能是很平滑的，没有多少局部最优，当卡在局部最优时，多数情况就是全局最优距离，或者很接近全局最优。

真实世界中，会由于惯性，一直走，最后会走到比局部最优更好的全局最优点
在这里插入图片描述