Day 14: 无需预训练或者过多的数据增强技巧,谷歌提出新方法,超越 ResNet 的表现

文章标题:When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations
最近其实也一直在看 paper,不过感觉都并不是特别好写,或者说目前我的主要任务还不在精读每一篇文章,因为其实如果要读透的话,还是需要一点点看代码的。
因此这一篇也是个大概性的总结吧,因为文章提到的东西虽然很可能能用,但是如果要用到自己的东西上,需要再看另外一篇 paper,因为本文是基于那一篇上面写的,干货并不太多。

文章并没有提出新的网络结构,使用的仍然是vit和MLP-mixer,只是使用了这些新的 optimizer/minimizer 而已,而且还达到了一个看起来挺不错的结果。

作者想解决的问题

  • 之前的vit和MLP-mixer模型都需要大量的训练数据或者预训练。
  • 可视化和海森矩阵表明有的时候模型模型收敛在了非常陡峭的局部最小点,会在训练中出现过拟合。
  • 作者提出了一个sharpness aware optimizer来解决这个问题,以避免在训练过程中的过拟合。

简介部分

  • Transformer 和 MLP-mixer 有时候会收敛在非常陡峭的局部最小点,而且他们的最大组取率比 ResNet 要大上几乎一个数量级。这种效应会在梯度从最后一层传向第一层的时候不断累积,因此最初的嵌入层会受对应的次对角线海森矩阵的最大特征值的不良影响。其次,这些网络都有着非常低的训练误差,但是虽然 MLP-mixer 的参数比VIP要少,但是它却更容易过拟合。最后,ViT 和 MLP-Mixer 相比于 ResNet 具有更差的“可训练性”。
  • 我们推测这是由于卷积引入的平移不变性和局部信息能够帮助 ResNet 避免这些不好的局部最小点。
  • 一阶优化器只会去寻找能够最小化训练误差,他们忽略了一些高阶信息,比如说和泛化相关的平整度。
  • 这些研究促使我们找到一种能够意识到陡峭度的最小化器(优化器),能够明确地使损失几何图在训练过程中更平滑。
  • SAM 就努力地尝试去寻找一个周围的邻居都有较低损失的解,而非只关注一个单独的点。

在这里插入图片描述

SAM

ϵ ^ ( w ) = arg ⁡ max ⁡ ∥ ϵ ∥ 2 ≤ ρ L t r a i n ( w ) + ϵ T ∇ w L t r a i n ( w ) = ρ ∇ w L t r a i n ( w ) / ∥ ∇ w L t r a i n ( w ) ∥ 2 \hat{\epsilon}(w)=\underset{\|\epsilon\|_{2} \leq \rho}{\arg \max } L_{t r a i n}(w)+\epsilon^{T} \nabla_{w} L_{t r a i n}(w)=\rho \nabla_{w} L_{t r a i n}(w) /\left\|\nabla_{w} L_{t r a i n}(w)\right\|_{2} ϵ^(w)=ϵ2ρargmaxLtrain(w)+ϵTwLtrain(w)=ρwLtrain(w)/wLtrain(w)2

ρ \rho ρ 是邻居球(球形)的尺寸。 ϵ ^ ( w ) \hat{\epsilon}(w) ϵ^(w) 是当前权重梯度的缩放。当计算好 ϵ ^ \hat{\epsilon} ϵ^ 后,SAM 再根据“可感受陡峭度的梯度” ∇ w L train ⁡ ( w ) ∣ w + ϵ ^ ( w ) \left.\nabla_{w} L_{\operatorname{train}}(w)\right|_{w+\hat{\epsilon}(w)} wLtrain(w)w+ϵ^(w) 来更新 w w w

可以看到,如果真要用起来的话,需要看本文引用的[23]号文章,即 Sharpness-Aware Minimization for Efficiently Improving Generalization 。链接先放这了,找时间再看具体内容。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值