深度学习模型训练注意事项

最新推荐文章于 2024-09-05 18:10:22 发布

猫不吃老鼠

最新推荐文章于 2024-09-05 18:10:22 发布

阅读量2.2k

点赞数 1

文章标签：神将网络训练效果解决办法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42219077/article/details/88300080

版权

本文探讨了深度学习模型训练中遇到的收敛速度慢、过拟合和线性模型局限性等问题，并提出解决方案，包括合理初始化权重、优化学习率、使用Batch Normalization、减少参数量、输入增强、Dropout、激活函数的应用以及残差网络等，以提升模型训练效果和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.收敛速度慢
解决：

设置合理的初始化权重w和偏置b
模型训练本质上就是调整w和b的过程，好的开始是成功的一半。（为什么不0初始化？哪三种常用的初始化方法？https://blog.csdn.net/weixin_43167121/article/details/88176101）
优化学习率
学习率太小，会增加迭代次数，加大训练时间。但学习率太大，容易越过局部最优点，降低准确率。
所以应当一开始学习率大一些，从而加速收敛。训练后期学习率小一点，从而稳定的落入局部最优解。使用Adam，Adagrad等自适应优化算法，就可以实现学习率的自适应调整，从而保证准确率的同时加快收敛速度。
网络节点输入值正则化 batch normalization
神经网络训练时，每一层的输入分布都在变化。不论输入值大还是小，我们的学习率都是相同的，这显然是很浪费效率的。而且当输入值很小时，为了保证对它的精细调整，学习率不能设置太大。那有没有办法让输入值标准化得落到某一个范围内，比如[0, 1]之间呢，这样我们就再也不必为太小的输入值而发愁了。
当然有！可以对每一个mini-batch数据内部进行标准化，使他们规范化到[0, 1]内。这就是Batch Normalization。它在每个卷积层后，使用一个BN层，从而使得学习率可以设定为一个较大的值。
采用更先进的网络结构&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。