深度学习——训练trick

最新推荐文章于 2024-08-08 18:25:32 发布

Vic时代

最新推荐文章于 2024-08-08 18:25:32 发布

阅读量2k

点赞数 1

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/VictoriaW/article/details/72800119

版权

深度学习专栏收录该内容

32 篇文章 8 订阅

订阅专栏

1、数据预处理
数据必须进行预处理以使其zero-mean。
图像处理中有两种方式中心化：减去均值图像（32，32，3）；减去每通道均值（3个值）。

2、梯度检查
使用中心形式：
使用双精度：使用单精度浮点数时，可能会出现即使梯度实现是正确的，也会得到比较大的相对误差（比如1e-2），应该使用双精度数据类型。
step大小：不是越小越好，当h过小时会出现数值精确度问题。一般在1e-4到1e-6之间修改h。
计算相对误差：网络越深，误差越大。所以当对一个深度达10层的神经网络进行梯度检查时，即使相对误差为1e-2可能也是可以的。

3、检查初始损失是否合理
由于参数是随机的，所以softmax得到的每个类别的结果是1/class_num，由此可以估计出初始的loss值。检查程序输出的loss值是否和期望的一致，如果不一致，那么可能损失函数计算错误。

4、确保可以在很少的数据集上过拟合
选择大概20个数据来训练网络，那么损失值应该随着训练epoch不断减小并收敛到0。

5、参数初始化

6、学习率
损失值为nan时几乎总意味着学习率过大。

参考

[1] http://yyue.blogspot.com/2015/01/a-brief-overview-of-deep-learning.html
[2] http://cs231n.github.io/neural-networks-3/#gradcheck

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。