神经网络优化算法

最新推荐文章于 2024-08-05 11:15:19 发布

Parallax_2019

最新推荐文章于 2024-08-05 11:15:19 发布

阅读量2k

点赞数

分类专栏：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42422981/article/details/83552488

版权

本文探讨了神经网络的优化方法，包括数据集划分、正则化技术如L1和L2范数、dropout、数据增广、早停策略。还介绍了批标准化(BN)、梯度消失爆炸的解决方案、动量梯度下降、RMSprop和Adam等优化算法，以及学习因子衰减和超参数调试。此外，文章提到了迁移学习和多任务学习在提高模型性能中的应用。

摘要由CSDN通过智能技术生成

数据集划分：train/dev/test 训练集、验证集、测试集三部分。（当没有测试集的时候，也把验证集叫做test sets）.训练集：训练算法模型。验证集：验证不同算法的表现情况，选择最佳算法模型。测试集：测试最好算法的实际表现，作为该算法的无偏估计。（泛化能力）

样本量<10000,6: 2：2。样本量很大如100万，则98%：1%：1%。

正则化：

L1范数（也称参数洗属性惩罚），绝对值相加，限制参数数值之和，w更加稀疏：指更多零值；虽然L1得到W更稀疏但求导复杂。

L2范数（也称权重衰减），限制参数平方和，平方和开方，L2正则化更常用，求导只用到自身。

dropout: keep_prob=0.8(该层有80%神经元的输出随机置0，通过伯努利分布生成向量点乘实现) 。（dropout只是训练模型使用，测试和实际应用模型不需要），相当于多种网络的融合，减少神经元之间依赖性，更加robust.（是一种正则化技巧）。

数据增广（data augmentation）:添加样本噪声和数量。扭曲，翻转，旋转，缩放。

early stopping：随迭代次数增加，训

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。