深度学习的实用技巧——L2正则化、Dropout正则化、梯度检验

最新推荐文章于 2023-04-20 17:01:29 发布

亚当尊

最新推荐文章于 2023-04-20 17:01:29 发布

阅读量4.6k

点赞数 3

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_28520127/article/details/81052625

版权

本文探讨深度学习的迭代过程和超级参数选择，强调训练集、验证集和测试集的重要性。介绍了偏差与方差的概念，以及如何通过正则化（L2、Dropout）降低过拟合。此外，还讨论了数据归一化、梯度消失/梯度爆炸问题和权重初始化策略。

摘要由CSDN通过智能技术生成

1.深度学习应用是一个高度迭代的过程

想要找到一个称心的神经网络结构，是一个循环往复的过程：

idea——>code——>experiment——>idea……

超级参数的选择也是神经网络工程师关注的重要问题：

#layers ？

#hidden units ？

learning rates ？

activation functions ？

因此，创建高质量的训练数据集、验证集和测试集是十分重要的事情。有助于提高循环效率。

2.训练集/验证集/测试集

在布置机器学习任务中，通常将数据分为训练集（train）、验证集（dev）和测试集（test）。

训练集用来run优化算法来拟合数据

验证集用来比较哪个模型或者算法效果更好

测试集用来评估模型效果。

当数据集规模较小时，适用传统的7/3或者6/2/2划分；当数据规模达百万级以上，一般是98/1/1的划分比例。

一个经验的法则：确保dev和test数据集来自相同的分布，而训练集则不要求与dev和test数据集来源相同。

没有测试集也不要紧，有dev数据集就行了。

3.偏差和方差（Bias/Variance）

欠拟合意味着高偏差，过拟合意味着高方差。

假设人眼识别误差Optimal error约等于0%（最优误差也被称为贝叶斯误差）

Training set error：1%

Dev set error：11% 这意味着过度拟合了训练集，但是验证

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。