深度学习论文解读分享之diffGrad:一种卷积神经网络优化方法

IEEE TNNLS 2020:diffGrad: 一种卷积神经网络优化方法

题目

diffGrad: An Optimization Method for Convolutional Neural Networks

作者

Shiv Ram Dubey , Member, IEEE, Soumendu Chakraborty , Swalpa Kumar Roy , Student Member, IEEE, Snehasis Mukherjee, Member, IEEE, Satish Kumar Singh, Senior Member, IEEE,
and Bidyut Baran Chaudhuri, Life Fellow, IEEE

关键词

Adaptive moment estimation (Adam), difference of gradient, gradient descent, image classification, neural networks, optimization, residual network.

研究动机

解决模型训练容易陷入局部最优的情况

模型在这里插入图片描述

随机梯度下降(SGD)是深度神经网络成功的核心技术之一。梯度提供了函数变化速度最快的方向的信息。基本SGD的主要问题是对所有参数以相同大小的步长变化,而不考虑梯度行为。因此,深度网络优化的一个有效方法是对每个参数具有自适应的步长。最近,人们试图改进梯度下降方法,如AdaGrad、AdaDelta、RMSProp和自适应矩估计(ADAM)。这些方法依赖于过去梯度平方的指数滑动平均的平方根,因此这些方法没有利用梯度的局部变化,因此提出了一种基于当前梯度和最近过去梯度之差的优化器(即DiffGrad)。在DiffGrad优化技术中,对每个参数的步长进行调整,使其具有较大的步长和较小的步长,以适应较快的梯度变化参数和较低的梯度变化参数。收敛分析采用在线学习框架的遗憾界方法。本文对三个合成的复非凸函数进行了深入的分析。并在CIFAR10和CIFAR100数据集上进行了图像分类实验,观察了DifferGrad相对于SGDM、AdaGrad、AdaDelta、RMSProp、AMSGrad等最新优化器的性能,实验中采用了基于残差单元(ResNet)的卷积神经网络(CNN)结构,实验结果表明,DiffGrad的性能优于其他优化器。此外,我们还表明,对于使用不同的激活函数训练CNN,DiffGrad的性能是一致的。

亮点

采用了类似学习率动量(momentum)的策略。

论文以及代码

论文链接: link
代码链接: link

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值