深度学习（Deep Learning） 4.训练Tips

最新推荐文章于 2023-08-08 10:20:59 发布

n不正

最新推荐文章于 2023-08-08 10:20:59 发布

阅读量368

点赞数

分类专栏：李宏毅机器学习笔记

本文链接：https://blog.csdn.net/qq_30981697/article/details/70175066

版权

本文介绍了深度学习训练中遇到的问题，如梯度消失问题和模型参数优化困难，并提出了解决方案，包括Dropout策略、Early Stopping、正则化、ReLU激活函数及其替代者Maxout，以及自适应学习率优化算法Adagrad、RMSProp和Momentum，旨在提升模型性能并防止过拟合。

摘要由CSDN通过智能技术生成

深度学习（Deep Learning） 4.训练Tips

1 Problem

Vanashing Gradient Problem：最开始的layer具有较小的梯度，学习速度慢，接近输出层的layer具有较大的梯度，学习速度快
模型参数难找：local minima、saddle point、plateau

2 Solution

1.Dropout：testing结果不好时
Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了
- 由于每次用输入网络的样本进行权值更新时，隐含节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现，这样权值的更新不再依赖于有固定关系隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。
- 可以将dropout看作是模型平均的一种。对于每次输入到网络中的样本（可能是一个样本，也可能是一个batch的样本），其对应的网络结构都是不同的，但所有的这些不同的网络结构又同时share隐含节点的权值。这样不同的样本就对应不同的模型，是bagging的一种极端情况。个人感觉这个解释稍微靠谱些，和bagging，boosting理论有点像，但又不完全相同。
- native bayes是dropout的一个特例。Native bayes有个错误的前提，即假设各个特征之间相互独立，这样在训练样本比较少的情况下，单独对每个特征进行学习，测试时将所有的特征都相乘，且在实际应用时效果还不错。而Droput每次不是训练一个特征，而是一部分隐含层特征。
- 还有一个比较有意思的解释是，Dropout类似于性别在生物进化中的角色，物种为了使适应不断变化的环境，性别的出现有效的阻止了过拟合，即避免环境改变时物种可能面临的灭亡。
2.Early Stopping：根据Validation Set上的预测准确率提前停止训练
3.Rehularization：但是正则化的效果并不明显。

E.g. $L'(\theta) = L(\theta) + \lambda\frac{1}{2}||\theta||_2$ ，使得函数更平滑，其梯度为 $\frac{\partial L'}{\partial w} =\frac{\partial L}{\partial w}+\lambda w$ ，

最低0.47元/天解锁文章

n不正

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习（Deep Learning） 4.训练Tips

深度学习（Deep Learning） 4.训练Tips1 ProblemVanashing Gradient Problem：最开始的layer具有较小的梯度，学习速度慢，接近输出层的layer具有较大的梯度，学习速度快模型参数难找：local minima、saddle point、plateau2 Solution1.Dropout：testing结果不好时 Dropout是指在模
复制链接

扫一扫

专栏目录