深度学习的一些优化方法

最新推荐文章于 2023-02-10 13:25:24 发布

fourierLouis

最新推荐文章于 2023-02-10 13:25:24 发布

阅读量778

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OliverChrist/article/details/80069648

版权

过拟合
数据：用更多数据训练、对于图像实施数据扩充
正则化方法：
L2正则化在cost function增加(lamdb/(2*m))sum(w[l]),整理偏导数得到w=(1-lamdb/m)w+learning_rate*back_prop,相当于对w乘以（1-lamdb/m）,缩小了w的范围，结合tanh的曲线，在w较小的范围里更接近线性
缺点：通过调节超参数lamdb需要较高的计算成本
Dropout，通过为每层设置keep_probs,来设置每层神经元随机保留的概率，通过随机drop掉神经元，使得输出不过于依赖某些特征（W）。这种方法常用语计算机视觉训练时数据量不足情况下，用于对抗过拟合。
缺点：无法明确定义损失函数，因此在引入dropout之前通常会先运行代码，确保单调递减，然后引入dropout
early stopping:在dev set error上升前停止训练
缺点：这种方式避免了过拟合，却无法充分训练模型，有可能导致高偏差

对dropout作用机理的一点补充（摘自知乎）

　1. 由于每次用输入网络的样本进行权值更新时，隐含节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现，这样权值的更新不再依赖于有固定关系隐含节点的共同作用，

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习的一些优化方法

过拟合数据：用更多数据训练、对于图像实施数据扩充正则化方法：L2正则化在cost function增加(lamdb/(2*m))sum(w[l]),整理偏导数得到w=(1-lamdb/m)w+learning_rate*back_prop,相当于对w乘以（1-lamdb/m）,缩小了w的范围，结合tanh的曲线，在w较小的范围里更接近线性缺点：通过调节超参数lamdb需要较高的计算成本Dropou...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。