深度学习参数总结

最新推荐文章于 2023-06-06 12:01:14 发布

码小花

最新推荐文章于 2023-06-06 12:01:14 发布

阅读量1.8k

点赞数 1

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sarracode/article/details/108788605

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目录

一深度学习中batch_size和learning_rate的关系

二网络训练时train loss与test loss的结果分析

三出现loss不下降的问题时检查

四训练时损失出现nan的问题，可能导致梯度出现nan的三个原因

一深度学习中batch_size和learning_rate的关系

一般来说，batch_size 大一些，则 learning_rate 也要大一些，并且有一个数学关系。

那么，当我们改变 batch_size 的时候，可能遵循下面的规律：

$newlearningrate = oldlearningrate *\sqrt{ newbatchsize/oldbatchsize}$

举例来说，原先别人的batch size 为128， learning rate为0.0005，那么当我们把batch size改为1024时，则新的学习率有这样的推荐值：

$0.0005\sqrt{ 1024/128} = 0.005 \sqrt{ 8} = 0.001412$

二网络训练时train loss与test loss的结果分析

1.train_loss不断下降，test_loss不断下降

可能发生的原因：网络还在学习中，loss在稳步下降。

2.train_loss不断下降，test_loss趋于不变

可能发生的原因：网络出现过拟合的现象，因此在训练集上表现为网络仍在学习，但是test_loss趋于不变说明网络泛化能力差。

3.train_loss趋于不变，test_loss不断下降

可能发生的原因：数据集 100% 是有问题的。

4.train_loss趋于不变，test_loss趋于不变

可能发生的原因：loss开始在某一直附近不断振荡，说明网络学习遇到瓶颈，此时应该减小学习率或者减小batchsize的大小。或者是数据集有问题（数据集标注错误数据比较多）

5.train_loss不断上升，test_loss不断上升

可能发生的原因：网络结构的设计有问题；训练时超参数的设置有问题；数据集没有经过清洗。

三出现loss不下降的问题时检查

（1）数据

数据本身以及label是否有异常。
数据是否过于脏乱，没有经过清洗。
数据输入是否有问题，比如图片与label是否一致。
数据经过预处理后，是否丢失特征或者因预处理而出现别的问题。
数据量是否过少，网络出现过拟合的现象。

（2）超参数的设置

学习率的设置是否有问题：学习率过小可能会导致loss下降缓慢，学习率过大可能会导致loss振荡不下降。
batch size设置是否有问题： batch size如果设置过小，在数据不太好的情况下也会出现loss振荡的现象。

四训练时损失出现nan的问题，可能导致梯度出现nan的三个原因

1.梯度爆炸。梯度数值超出范围变成nan. 通常可以调小学习率、加BN层或者做梯度裁剪来试试看有没有解决。

2.损失函数或者网络设计。比方说，出现了除0，或者出现一些边界情况导致函数不可导，比方说log(0)、sqrt(0)。

3.脏数据。可以事先对输入数据进行判断看看是否存在nan。

参考博客

https://www.cnblogs.com/wlhr62/p/10620269.html

https://www.cnblogs.com/llfctt/p/10862155.html

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
深度学习参数总结

网络训练时train loss与test loss的结果分析:1.train_loss不断下降，test_loss不断下降可能发生的原因：网络还在学习中，loss在稳步下降。2.train_loss不断下降，test_loss趋于不变可能发生的原因：网络出现过拟合的现象，因此在训练集上表现为网络仍在学习，但是test_loss趋于不变说明网络泛化能力差。3.train_loss趋于不变，test_loss不断下降可能发生的原因：数据集 100% 是有问题的。4.train_loss趋于
复制链接

扫一扫

专栏目录

码小花 CSDN认证博客专家 CSDN认证企业博客

码龄5年

55: 原创

8万+: 周排名

38万+: 总排名

8万+: 访问

: 等级

1072: 积分

20: 粉丝

74: 获赞

17: 评论

387: 收藏

私信

关注

热门文章

分类专栏

最新评论

bert中文使用总结
m0_75217567: 博主能分享一下预训练模型吗？科大讯飞能够已经下载不了了
决策树例子与python实现
m0_64860572: 有c4.5决策树代码的例子吗
文本蕴涵模型测试过程
uuunicornM: “在运行train.py文件时遇到错误：InvalidArgumentError (see above for traceback): indices[0，10] = 47392 is not in [0, 45100) 是因为换了数据，因此词典和npy文件都要重新生成” 你好，我也出现了这个问题，请问是怎么解决的？
bert中文使用总结
Ang_Quantum: 感谢博主的文章！顺便想问一个问题，我把Google的BERT转为torch版本后，发现模型生成的向量和tensorflow版本的有略微的不一样(2%的相似度误差)。楼主知道是什么原因吗？有没有让torch生成的向量和tensorflow完全一样的方法呢？
octave的基本操作
LHNC: 为什么函数就是未定义，我用遍了网上找到的方法T-T

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。