不用归一化,深度学习模型也可以很优秀!

本文转载自机器之心。

深度学习,已经不需要归一化了。

我们知道,在传递给机器学习模型的数据中,我们需要对数据进行归一化(normalization)处理。

在数据归一化之后,数据被「拍扁」到统一的区间内,输出范围被缩小至 0 到 1 之间。人们通常认为经过如此的操作,最优解的寻找过程明显会变得平缓,模型更容易正确的收敛到最佳水平。

然而这样的「刻板印象」最近受到了挑战,DeepMind 的研究人员提出了一种不需要归一化的深度学习模型 NFNet,其在大型图像分类任务上却又实现了业内最佳水平(SOTA)。

该模型(红色)与其他模型在 ImageNet 分类准确度和训练时间上的对比。

该论文的第一作者,DeepMind 研究科学家 Andrew Brock 表示:「我们专注于开发可快速训练的高性能体系架构,已经展示了一种简单的技术(自适应梯度裁剪,AGC),让我们可以训练大批量和大规模数据增强后的训练,同时达到 SOTA 水平。」

该研究一经提交,便吸引了人们的目光。

  • 论文链接:https://arxiv.org/abs/2102.06171

  • DeepMind 还放出了模型的实现:https://github.com/deepmind/deepmind-research/tree/master/nfnets

NFNet 是不做归一化的 ResNet 网络。具体而言,该研究贡献有以下几点:

  • 提出了自适应梯度修剪(Adaptive Gradient Clipping,AGC)方法,基于梯度范数与参数范数的单位比例来剪切梯度,研究人员证明了 AGC 可以训练更大批次和大规模数据增强的非归一化网络。

  • 设计出了被称为 Normalizer-Free ResNets 的新网络,该方法在 ImageNet 验证集上大范围训练等待时间上都获得了最高水平。NFNet-F1 模型达到了与 EfficientNet-B7 相似的准确率,同时训练速度提高了 8.7 倍,而 NFNet 模型的最大版本则树立了全新的 SOTA 水平,无需额外数据即达到了 86.5%的 top-1 准确率。

  • 如果在对 3 亿张带有标签的大型私人数据集进行预训练,随后针对 ImageNet 进行微调,NFNet 可以比批归一化的模型获得更高的 Top-1 准确率:高达 89.2%。

研究方法

在没有归一化的情况下,许多研究者试图通过恢复批归一化的好处来训练深度 ResNet 以提升其准确率。这些研究大多数通过引入小常数或可学习的标量来抑制初始化时残差分支上的激活尺度。

DeepMind 的这项研究采用并建立在「Normalizer-Free ResNet(NF-ResNet)」上,这是一类可以在没有归一化层的情况下,被训练成具有训练和测试准确率的预激活 ResNet。

NF-ResNet 使用如下形式的残差块:

其中,h_i 代表第 i 个残差块的输入,f_i 代表由第 i 个残差分支计算的函数。

用于高效大批量训练的自适应梯度裁剪

为了将 NF-ResNet 扩展到更大的批规模,研究者探索了一系列梯度裁剪策略。梯度裁剪通常被用于语言建模中以稳定训练。近来一些研究表明:与梯度下降相比,梯度裁剪允许以更高的学习率进行训练,从而加快收敛速度。这对于条件较差的 loss landscape 或大批量训练尤为重要。因为在这些情况下,最佳学习率受到最大稳定学习率的限制。因此该研究假设梯度裁剪应该有助于将 NF-ResNet 有效地扩展到大批量设置。

借助一种称为 AGC 的梯度裁剪方法,该研究探索设计了 Normalizer-Free 架构,该架构实现了 SOTA 的准确率和训练速度。

当前图像分类任务的 SOTA 大多是 EfficientNet 系列模型 (Tan & Le, 2019)取得的,该系列的模型经过优化以最大化测试准确率,同时最小化参数量和 FLOP 计数,但它们的低理论计算复杂度并没有转化为训练速度的提高。

该研究通过手动搜索设计导向来探索模型设计的空间,这些导向对比设备上的实际训练延迟,可带来 ImageNet 上 holdout top-1 的帕累托前沿面的改进。它们对 holdout 准确率的影响如下表 2 所示:

实验

表 3 展示了六个不同的 NFNets(F0-F5)与其他模型在模型大小、训练延迟和 ImageNet 验证准确率方面的对比情况。NFNets-F5 达到了 86.0%的 SOTA top-1 准确率,相比 EfficientNet-B8 有了一定提升;NFNet-F1 的测试准确率与 EfficientNet-B7 相媲美,同时训练速度提升了 8.7 倍;NFNet-F6+SAM 达到了 86.5%的 top-1 准确率。

NFNets 和其他模型在 ImageNet 数据集上的准确率对比。延迟是指在 TPU 或 GPU(V100)上运行单个完整训练步骤所需要的毫秒时间。

此外,研究者使用了一个 3 亿标注图像的数据集对 NFNet 的变体进行了预训练,并针对 ImageNet 进行微调。最终,NFNet-F4 + 在 ImageNet 上获得了 89.2% 的 top-1 准确率。这是迄今为止通过额外训练数据达到的第二高的验证准确率,仅次于目前最强大的半监督学习基线 (Pham et al., 2020) 和通过迁移学习达到的最高准确率。

表 5:使用额外数据进行大规模预训练后,ImageNet 模型迁移性能对比。

Andrew Brock 表示,虽然我们对于神经网络信号传递、训练规律的理解还有很多需要探索的方向,但无归一化的方法已经为人们提供了一个强有力的参考,并证明了发展这种深度理解能力可以有效地在生产环境中提升效率。

参考内容:

https://www.reddit.com/r/MachineLearning/comments/ligh5z/r_deepmind_introducing_nfnets_new_imagenet_sota/

https://twitter.com/DeepMind/status/1360217173797568514

END

备注:CV

计算机视觉交流群

扫码备注拉你入群。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 深度学习模型EDCN是一种深度学习技术,它通过在大型数据集上使用多层神经网络来识别和分类图像。它采用全连接网络,其中每个层都有一些隐藏层,并且每个隐藏层中都会有一些激活函数,以及一些池化层,以减少网络的参数数量,并简化网络的计算过程。每一层都会进行反向传播,以便调整网络参数,以提高准确率和性能。 ### 回答2: EDCN(Expandable Deep Convolutional Network)是一种深度学习模型。它是基于卷积神经网络(CNNs)的策略之一,用于处理计算机视觉任务,例如图像分类、目标检测和语义分割。 EDCN的核心思想是通过堆叠并增强传统的卷积层来构建一个更加强大和灵活的网络。相比于传统的固定层数的CNN模型,EDCN采用了可扩展的设计,在每个阶段都增加了一个或多个额外的卷积层。这样一来,EDCN可以处理更加复杂的任务,同时通过增加网络深度来提高模型的性能。 在EDCN中,每个阶段都包含了多个卷积块。每个卷积块由一个或多个卷积层、激活函数以及批量归一化层组成。批量归一化层一方面有助于加速网络训练的收敛速度,另一方面还能防止梯度消失或爆炸的问题。通过将多个卷积块叠加在一起,EDCN可以逐渐增加网络的深度和复杂度,从而提高模型的表达能力和性能。 EDCN模型的设计考虑了网络的可扩展性和计算资源的利用率。在每个阶段,EDCN不仅增加了卷积层的数量,还引入了一个可选的下采样操作,用于减小输入张量的尺寸。这样一来,EDCN在增加模型的表达能力的同时,也能降低计算复杂度和内存消耗。 总之,EDCN是一种通过堆叠并增强卷积层来构建深度学习模型的策略。它通过逐渐增加网络的深度和复杂度,改进了传统CNNs的性能。在计算机视觉任务中,EDCN已经取得了一定的成功,并且仍然是一个活跃的研究领域,吸引了许多研究者的关注和研究。 ### 回答3: EDCN(网络模型)是一种用于深度学习的图像去噪的模型。EDCN的全称是Edge Dean ExtraClassifier Network(边缘分类器额外分类网络),它是在CNN(卷积神经网络)的基础上发展而来的。 EDCN模型主要用于图像去噪,通过学习图像的特征和结构,去除图像上的噪声并还原图像的清晰度。EDCN模型的核心是通过多层卷积层和池化层来提取图像的特征,并且在每一层也会添加一些额外的分类网络。 EDCN模型的优势是能够提取图像的边缘信息,从而减少噪声对图像质量的影响。它采用了残差学习的思想,通过对图像中的残差信息进行建模,进一步提高了去噪的效果。此外,EDCN模型还引入了注意力机制,能够自动关注图像中最重要的部分,增强图像去噪的效果。 EDCN模型的训练过程通常是通过有噪声和无噪声图像对进行监督学习。在训练过程中,EDCN模型通过最小化噪声图像与无噪声图像之间的均方误差,不断调整网络参数,提高图像的去噪能力。 总结来说,EDCN模型是一种用于深度学习的图像去噪模型,通过学习图像的特征和结构,去除图像上的噪声并还原图像的清晰度。它通过提取边缘信息、残差学习和注意力机制来实现优秀的去噪效果,并通过监督学习的方式进行训练。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值