Making Convolutional Networks Shift-Invariant Again

Making Convolutional Networks Shift-Invariant Again

摘要


      现代卷积网络并不是位移不变(shift-invariant)的,因为小的输入移位会导致输出的剧烈变化。常用的降采样方法,如最大池化(max-pooling)、跨步卷积(strided-convolution)和平均池(average-pooling),忽略了采样定理(he sampling theorem)。众所周知,信号处理是在降采样前通过低通滤波消除混叠。然而,简单地将这个模块融入深度网络会降低性能;因此,它很少被使用。我们展示了当正确地集成低通滤波(low-pass filtering)时,它与现有的体系结构组件兼容,例如最大池化和跨步卷积。我们观察到,在许多常用的体系结构(如resnet、densenet和mobilenet)中,在imagenet数据集的分类准确性都有提高,这表明有效的正则化。此外,在稳定性和鲁棒性方面,我们观察到模型有更好的泛化。我们的研究结果表明,这种经典的信号处理技术在现代深度神经网络中一直被忽视。

-----------------------------博主添加------------------------------------

在图像处理或者计算机视觉应用中,在正式对图像进行分析处理前一般需要一个预处理的过程。预处理是对图像作一些诸如降维、降噪的操作,主要是为后续处理提供一个体积合适的、只包含所需信息的图像。这里通常会用到一些滤波处理手法。滤波,实际上是信号处理里的一个概念,而图像本身也可以看成是一个二维的信号,其中像素点灰度值的高低代表信号的强弱。对应的高低频的意义:

高频:图像中灰度变化剧烈的点,一般是图像轮廓或者是噪声。

低频:图像中平坦的,灰度变化不大的点,图像中的大部分区域。

根据图像的高频与低频的特征,我们可以设计相应的高通与低通滤波器,高通滤波可以检测图像中尖锐、变化明显的地方;低通滤波可以让图像变得光滑,滤除图像中的噪声。OpenCV中提供的低通滤波有:线性的均值滤波器、高斯滤波器,非线性的双边滤波器、中值滤波器;高通滤波有基于Canny,Sobel等各种边缘滤波。这里大家可以看到低通滤波和高通滤波其实是相互矛盾的,但很多时候在做边缘检测前我们又需要进行低通滤波来降噪,这里就需要调节参数在保证高频的边缘不丢失的前提下尽可能的多去除图片的噪点。

-------------------------------------------------------------------------

介绍

       当对信号,例如图像,进行下采样时,教科书上的解决方案是通过对信号进行低通滤波来消除混叠(anti-alias)。没有它,高频分量的信号混叠成较低的频率。这种现象在电影中很常见,由于帧率不符合经典的采样标准(Nyquist, 1928),车轮似乎向后旋转,称为频闪效应(the Stroboscopic effect)。有趣的是,大多数现代卷积网络并不担心反混叠。

       早期的网络确实采用了模糊的降采样(blurred-downsampling)-平均池化(Lecun等人,1990年)。然而,大量的经验证据表明,最大池化(max pooling)提供了更好的任务性能(Scherer等人,2010年),这导致了它的广泛应用。不幸的是,max pooling没有提供相同的抗混叠功能,并且出现了一种奇怪的、最近被发现的现象——输入的小变化会极大地改变输出(Engstrom等人,2019;Azulay&Weiss,2018)。如图1所示,网络输出可以根据输入位置振荡。

        模糊下采样和最大池化通常被视为相互竞争的下采样策略(Scherer et al. , 2010)。然而,我们证明它们是兼容的。我们的简单观察是,最大池化本质上由两个操作组成:(1)密集地评估max操作子和(2)naive子采样。我们建议将它们之间的低通滤波器作为一种抗混叠的方法。这种观点支持低通滤波,而不是取代最大池化。因此,输入的偏移使输出相对不受影响(偏移不变性),而更紧密地偏移内部特征映射(偏移等方差)。(这一段不是太懂,有懂的可以评论回复

       此外,这可以直接在子采样之前正确放置低通滤波器。使用这种方法,实际的抗混叠可以实现在任何现有的strided层(博主理解实际上说的是具备下采样功能的层,比如池化等),如条纹卷积,它也可以被使用于更现代的网络,如ResNet (He et al., 2016)和MobileNet (Sandler等,2018)。

        一个潜在的问题是,过于激进的滤波可能导致大量信息丢失,降低性能。然而,我们实际上观察到,跨架构的ImageNet分类的准确性有所提高(Russakovsky et al., 2015),以及对腐蚀和扰动的鲁棒性和稳定性有所提高(Hendrycks et al., 2019)。总而言之:

  • 我们集成了经典的抗混叠算法来提高深度网络的移位方差。关键是,该方法与现有的下采样策略兼容。
  • 我们验证了常见的下采样策略——maxpooling、average-pooling、striding -convolution——在不同架构中的有效性。我们测试了多个任务-图像分类和图像到图像的翻译。
  • 对于ImageNet分类,我们惊奇地发现,准确率获得提高,这表明有效的正则化。
  • 此外,我们观察到更好的泛化。性能对输入变化更加健壮和稳定,例如旋转、缩放、模糊和噪声变化(such as rotation, scaling, blurring, and noise variants.)。

Related work

局部连接性和权重共享(Local connectivity and weight sharing)是神经网络的核心原则,包neocongentron (Fukushima&Miyake,1982)、Lenet (Lecun et al.,1998) 和近期的网络,例如Alexnet (Krizevsky et al.,2012) VGG (Simonyan&Zisserman,2015)、 Resnet (He et al.,2016) 和Densen (Huang等人,2017年), 等。在生物系统中,局部连通性是在猫的视觉系统中发现的(Hubel&Wiesel,1962

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值