​BatchNorm的“平替”?TUM提出KNConvNets,消除CNN中BatchNorm的缺点

eae766d0774157406b1ed331869079e6.gif

©PaperWeekly 原创 · 作者 | Jason

研究方向 | 计算机视觉

现有的深度卷积神经网络(CNN)结构通常依赖于 batch normalization(BatchNorm)来有效地训练模型。BatchNorm 显著提高了模型性能,但在小 batch 情况下性能较差。为了克服这一局限性,作者提出了核归一化(kernel normalization)和核归一化卷积层,并将它们作为主要的构建块集成到核归一化卷积网络(KNConvNets)中。 

作者实现了与最先进的 CNN(如 ResNet 和DenseNet)相对应的 KNConvNets,同时放弃了 BatchNorm 层。通过大量实验,作者表明,KNConvNet 在准确性和收敛速度方面始终优于 BatchNorm,GroupNorm 和 LayerNorm,同时保持了有竞争力的计算效率。

66b9fc5995acf73aa80ddc26781c0772.png

论文和代码地址

453e1d6e00c3a5046ec6e1504a031015.png

论文标题:

Kernel Normalized Convolutional Networks

论文地址:

https://arxiv.org/abs/2205.10089

b7d80117e44f1c82565b7c15e05dbce6.png

Motivation

卷积神经网络(CNN)是计算机视觉任务中的标准架构。深层 CNN,包括 ResNet、DenseNet 和 Efficentnet,在对具有挑战性的数据集(如 ImageNet)进行分类方面取得了优异的性能。这些 CNN 的主要构建块之一是 batch normalization(BatchNorm)。BatchNorm 层通过平滑优化空间和解决梯度消失的问题,大大增强了深层 CNN 的性能。

b6a30b3b2054611855b0e3d2f22d937f.png

然而,BatchNorm 的缺点是打破了 batch 中样本之间的独立性。这是因为 BatchNorm 沿着 batch 维度执行归一化(上图 a),因此,与给定样本相关的归一化值取决于 batch 中其他样本的统计信息。因此,BatchNorm 的有效性在很大程度上取决于 batch 大小。使用大 batch,BatchNorm 可以更准确地估计 batch 统计信息,从而有效地训练模型,但会产生较高的内存开销。另一方面,对于小 batch,BatchNorm 会导致模型精度的大幅降低。

为了克服 BatchNorm 的局限性,引入了与 Batch

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值