深度学习模型调试经验

最新推荐文章于 2024-06-11 13:19:18 发布

理解&&记忆

最新推荐文章于 2024-06-11 13:19:18 发布

阅读量1.7k

点赞数

分类专栏：深度学习入门文章标签：深度学习人工智能回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ChangWei_wenzhou/article/details/122969480

版权

1. 尽量简单模型简单，数据简单，一般10个一下数据，经理保证模型过拟合。2. loss设计是否合理初始loss期望值和实际值误差是否过大，多分类例子。初始loss测试.数据不均衡的时候是不是可以尝试一下focal loss3. 网络中间输出检查、网络连接检查确认所有子网络的输入输出shape对齐，并确认全部都连接上了梯度更新是否正确如果参数的梯度大部分是0，那么是不是学习率太小了时刻监测一下梯度对不对/时刻进行修正。经典问题：梯度消失，梯度爆炸。参数的梯度是否真

摘要由CSDN通过智能技术生成

1. 尽量简单

模型简单，数据简单，一般10个一下数据，经理保证模型过拟合。

2. loss设计是否合理

初始loss期望值和实际值误差是否过大，多分类例子。

初始loss测试.

数据不均衡的时候是不是可以尝试一下focal loss

3. 网络中间输出检查、网络连接检查

确认所有子网络的输入输出shape对齐，并确认全部都连接上了

梯度更新是否正确

如果参数的梯度大部分是0，那么是不是学习率太小了

时刻监测一下梯度对不对/时刻进行修正。经典问题：梯度消失，梯度爆炸。

参数的梯度是否真的被更新了

4. 时刻关注着模型参数

模型参数保持正常， 1. 调整batch_size 2. 统计梯度下降中，我们需要的batch size要求是：1、batch size足够大到能让我们在loss反向传播时候正确估算出梯度；2、batch size足够小到统计梯度下降（SGD）能够一定程度上regularize我们的网络结构。batch size太小优化困难，太大又会导致：Generalization Gap和Sharp Minima 3. 调整learning rate学习率：学习率太小可能会导致局部最优，而太大又会导致模型无法收敛。4. 梯度裁剪：在反向传播的时候，将参数的梯度限制在一个范围之类：[-min, max] 5。Batch normalization<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习模型调试经验

1. 尽量简单模型简单，数据简单，一般10个一下数据，经理保证模型过拟合。2. loss设计是否合理初始loss期望值和实际值误差是否过大，多分类例子。初始loss测试.数据不均衡的时候是不是可以尝试一下focal loss3. 网络中间输出检查、网络连接检查确认所有子网络的输入输出shape对齐，并确认全部都连接上了梯度更新是否正确如果参数的梯度大部分是0，那么是不是学习率太小了时刻监测一下梯度对不对/时刻进行修正。经典问题：梯度消失，梯度爆炸。参数的梯度是否真
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。