02 优化算法+ 激活函数 & BP算法公式+问题理解

01 经典的优化算法

1 批量梯度下降算法 BGD
每次是使用所有样本进行更新,如果样本数目大,训练速度比较缓慢

2 随机梯度下降算法SGD
特点:每次都随即使用随机使用单个样本来更新整个模型参数
缺点:单个数据更新导致训练波动大,收敛不稳定

3 mini-batch GD gradient disent
每次都随机选择一定批次大小的数据进行梯度过
优点:提高了训练速效率,和收敛速度

4 动量法 Momentum 动量梯度下降法
用于解决梯度下降算法中的收敛速度慢,陷入局部最小值的问题
引入了一个动量概念,暂且用v表示,其中μ表示动量系数,α表示学习率
v = μ*v - αΔL
θ = θ + v 梯度更新,加上负梯度,最小化损失函数

5 AdaGrad 自适应梯度算法
通过自动地调整每个参数的学习率
对于梯度小或稀疏特征,此时学习率就会比较大,对于梯度大的特征此时学习率会比较小
AdaGrad算法维护一个累积梯度平方和的变量,用于调整学习率的大小
G = G + ΔL²
θ = θ - (μ/ 根号 G + ε)ΔL μ全局学习率,用户指定
缺点:由于平方项积累,学习率可能会过早的缩减到很小

6 RMSProp 算法
在AdaGrad 自适应梯度算法的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值