深度学习(Deep Learning) 4.训练Tips

本文介绍了深度学习训练中遇到的问题,如梯度消失问题和模型参数优化困难,并提出了解决方案,包括Dropout策略、Early Stopping、正则化、ReLU激活函数及其替代者Maxout,以及自适应学习率优化算法Adagrad、RMSProp和Momentum,旨在提升模型性能并防止过拟合。
摘要由CSDN通过智能技术生成

深度学习(Deep Learning) 4.训练Tips


1 Problem

  • Vanashing Gradient Problem:最开始的layer具有较小的梯度,学习速度慢,接近输出层的layer具有较大的梯度,学习速度快
  • 模型参数难找:local minima、saddle point、plateau

2 Solution

  • 1.Dropout:testing结果不好时

    Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了

    • 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况。
    • 可以将dropout看作是模型平均的一种。对于每次输入到网络中的样本(可能是一个样本,也可能是一个batch的样本),其对应的网络结构都是不同的,但所有的这些不同的网络结构又同时share隐含节点的权值。这样不同的样本就对应不同的模型,是bagging的一种极端情况。个人感觉这个解释稍微靠谱些,和bagging,boosting理论有点像,但又不完全相同。
    • native bayes是dropout的一个特例。Native bayes有个错误的前提,即假设各个特征之间相互独立,这样在训练样本比较少的情况下,单独对每个特征进行学习,测试时将所有的特征都相乘,且在实际应用时效果还不错。而Droput每次不是训练一个特征,而是一部分隐含层特征。
    • 还有一个比较有意思的解释是,Dropout类似于性别在生物进化中的角色,物种为了使适应不断变化的环境,性别的出现有效的阻止了过拟合,即避免环境改变时物种可能面临的灭亡。

  • 2.Early Stopping:根据Validation Set上的预测准确率提前停止训练
  • 3.Rehularization:但是正则化的效果并不明显。

    E.g. L(θ)=L(θ)+λ12||θ||2 ,使得函数更平滑,其梯度为 Lw=Lw+λw

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值