深度学习之收敛问题

最新推荐文章于 2024-06-23 15:22:06 发布

Nick_Spider

最新推荐文章于 2024-06-23 15:22:06 发布

阅读量2.9k

点赞数

分类专栏：机器学习文章标签：收敛深度学习 tensorflow

本文链接：https://blog.csdn.net/weixin_39198406/article/details/82179224

版权

本文探讨了深度学习中遇到的收敛问题，包括样本量不足可能导致的过拟合，学习率设置过大引起的梯度爆炸，以及如何通过增加数据量和调整模型复杂度来改善收敛。提到的解决方案有dropout、增大minibatch、调整学习率和采用更小的模型。

摘要由CSDN通过智能技术生成

原答案地址：https://www.zhihu.com/question/33505655
不过答案目前已经被删除了，所以没有图…
本文文字摘自：https://blog.csdn.net/xlbryant/article/details/48470987

1.数据库太小一般不会带来不收敛的问题，只要你一直在train总会收敛（rp问题跑飞了不算）。反而不收敛一般是由于样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题，你看下你的training set上的loss收敛了吗？如果只是validate set上不收敛那就说明overfitting了，这时候就要考虑各种anti-overfit的trick了，比如dropout，SGD，增大minibatch的数量，减少fc层的节点数量，momentum，finetune等。

2.learning rate设大了会带来跑飞（loss突然一直很大）的问题，这个是新手最常见的情况——为啥网络跑着跑着看着要收敛了结果突然飞了呢？可能性最大的原因是你用了relu作为激活函数的同时使用了softmax或者带有exp的函数做分类层的loss函数。当某一次训练传到最后一层的时候，某一节点激活过度（比如100），那么exp(100)=Inf，发生溢出，bp后所有的weight会变成NAN，然后从此之后weight就会一直保持NAN，于是loss就飞起来辣。会为

最低0.47元/天解锁文章

Nick_Spider

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习之收敛问题

原答案地址：https://www.zhihu.com/question/33505655 不过答案目前已经被删除了，所以没有图… 本文文字摘自：https://blog.csdn.net/xlbryant/article/details/48470987 1.数据库太小一般不会带来不收敛的问题，只要你一直在train总会收敛（rp问题跑飞了不算）。反而不收敛一般是由于样本的信息量太大...
复制链接

扫一扫

专栏目录