深度学习激活函数 和 优化函数总结

1、SGD,Momentum,Adagard,Adam原理?

【第一张图为不同算法在损失平面等高线上随时间的变化情况】

【第二张图为不同算法在鞍点处的行为比较。】

SGD(Stochastic Gradient Descent )(随机梯度下降)

【意义】单纯的梯度计算容易得到局部最优解,这个时候引入随机变量能很好的在保证梯度下降大体方向情况下得到最优解。也就是说,虽然包含一定的随机性,但是从期望上来看,它是等于正确的导数的。 SGD 就像是喝醉了酒的 GD,它依稀认得路,最后也能自己走回家,但是走得歪歪扭扭。

【公式】

【图示】

Momentum

【意义】我们使用SGD训练参数时,有时候会下降的非常慢,并且可能会陷入到局部最小值中。动量的引入就是为了加快学习过程,特别是对于高曲率、小但一致的梯度,或者噪声比较大的梯度能够很好的加快学习过程。SGD每次都会在当前位置上沿着负梯度方向更新(下降,沿着正梯度则为上升),并不考虑之前的方向梯度大小等等。而动量(moment)通过引入一个新的变量 v v 去积累之前的梯度(通过指数衰减平均(类似EMA)得到),得到加速学习过程的目的。

Adagard

【意义】Adagrad算法能够在训练中自动的对learning rate进行调整,对于出现频率较低参数采用较大的α更新;相反,对于出现频率较高的参数采用较小的α更新。因此,Adagrad非常适合处理稀疏数据。

【公式】

Adam

【意义】Adam(Adaptive Moment Estimation)是另一种自适应学习率的方法。它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。公式如下:

【公式】

2、常见的4种激活函数有:Sigmoid、tanh,ReLU、leaky ReLU,Softmax它们的优缺点?

别称:S型生长曲线

信息科学中Sigmoid函数常用作神经网络的激活函数,将变量映射到0,1之间。

【优】函数非常适合将输入分为两类,此函数形状较为缓和,其梯度能得到很好的控制,

【缺】在极端情况下,函数输出变得非常平坦,反向传播时,存在梯度消失的问题;

别称:双切正切函数,取值范围[-1,-1]

tanh函数与Sigmoid函数非常相似,函数曲线更加的陡峭,输出变得更加强大

【优】tanh在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果。

【缺点】缺点与Sigmoid类似

输出范围为0到无穷大,意味着输出会变得非常大,它的左侧是完全平坦的,可能导致梯度小时。

【优点】计算简单,是神经网络最常用的激活函数

【缺点】存在梯度爆炸和消失的可能性

将ReLU函数的前半段用0.01x代替。

Softmax将输入归一化为概率分布。它将输入压缩为0到1范围,就像Sigmoid。softmax是sigmoid的扩展,因为,当类别数 k=2 时,softmax 回归退化为 logistic 回归

它通常在多分类场景中的输出层,Softmax确保每个类的概率之和为1。

【优点】可用于多分类问题

 

 

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值