4.Compositional Convolutional Neural Networks 论文阅读

Title:Compositional Convolutional Neural Networks:A Deep Architecture with Innate Robustness to Partial Occlusion
Writers:Adam Kortylewski Ju He Qing Liu Alan Y uille
Conference:CVPR 2020
作者单位:Johns Hopkins University
论文地址:https://ieeexplore.ieee.org/document/9157227
代码地址:https://github.com/AdamKortylewski/CompositionalNets

Abstract

最近的研究表明,深度卷积神经网络(DCNNs)在部分遮挡条件下不能很好地泛化(generalize well)。受合成模型(compositional models)在分类部分遮挡对象方面的成功启发,我们提出将合成模型(compositional models)和DCNNs集成到一个统一的深度模型中,该模型对部分遮挡物具有天生的鲁棒性。我们将这种结构称为组合卷积神经网络。特别地,我们建议用可微的合成模型(differentiable compositional model.)代替DCNN的全连接分类头。合成模型的生成特性(The generative nature of the compositional model )使它能够定位遮挡物(occluders ),并随后聚焦于对象的非遮挡部分。我们对MS-COCO数据集中的人工遮挡图像和部分遮挡对象的真实图像进行分类实验。结果表明,即使对数据进行部分遮挡的数据增强方式进行训练,dcnns也不能对遮挡对象进行鲁棒分类。我们提出的模型在分类部分遮挡对象方面比标准DCNNs有很大的优势,even在训练期间它没有暴露在遮挡对象中。额外的实验表明,合成网(CompositionalNets)也可以准确地定位遮挡物,尽管只使用类别标签进行训练。本作品中使用的代码是公开的。

1. Introduction

深度卷积神经网络(deep convolutional neural networks, DCNNs)体系结构设计的进展[17,22,11]极大地提高了计算机视觉系统在图像分类方面的性能。然而,最近的研究[38,14]表明,与人类相比,这种深度模型在分类人工遮挡物体时明显缺乏鲁棒性。此外,我们的实验表明,dcnns不能对部分遮挡目标的真实图像进行鲁棒分类。因此,我们的研究结果和相关研究[38,14]指出了dcnns在部分遮挡下泛化的基本局限性,需要解决。
克服这一限制的一种方法是在部分遮挡方面使用数据增强[6,35]。然而,我们的实验结果表明,经过增强数据训练后,dcnns对部分遮挡对象的分类性能仍然比非遮挡对象的分类性能差很多。
构成性是人类认知的一个基本方面[2,28,9,3],这也反映在视觉皮层腹流的层次构成结构[34,27,21]。计算机视觉中的大量研究表明,合成模型(compositional models)可以稳健地对部分遮挡的2D模式进行分类[10,13,29,37]。Kortylewski等人[14]提出了dictionary-based compositional models(基于字典的合成模型),这是一种神经特征激活的生成模型,可以比dcnns更稳健地对部分遮挡的3D物体图像进行分类。然而,他们的结果也表明,与dcnns相比,他们的模型在分类未被遮挡的物体时明显缺乏鉴别能力。
在这项工作中,我们建议将合成模型和dcnns整合到一个统一的深度模型中,对部分遮挡物具有天生的鲁棒性。特别的,我们提出将DCNN的全连接分类头替换为根据最后一个卷积层的神经特征激活进行正则化后完全生成的合成层(a compositional layer)。该合成层的生成属性使网络能够定位图像中的遮挡物,并随后聚焦于对象的非遮挡部分,以便对图像进行鲁棒分类。我们将这种新颖的深度结构称为组合卷积神经网络(CompositionalNet)。图1说明了合成网在分类部分遮挡对象时的鲁棒性,同时也能够在图像中定位遮挡对象。特别地,它显示了几张被其他物体遮挡的汽车图像。在这些图像旁边,我们展示了遮挡分数,说明了由CompositionalNet估计的遮挡位置。注意occluders是如何精确定位的,尽管有高度复杂的形状和外观。
在这里插入图片描述
我们广泛的实验证明,提出的合成网络在分类部分遮挡对象方面比相关方法有很大的优势,即使在训练期间它没有暴露在遮挡对象中。当使用部分遮挡方面的数据增强训练时,性能进一步提高。此外,我们进行了定性和定量实验,证明了合成网精确定位遮挡物的能力,尽管只使用类别标签进行训练。我们在本文中做出了几个重要的贡献:
1.我们提出了一种可微的合成模型(a differentiable compositional model),该模型根据DCNN的特征激活生成。这使得我们可以将合成模型和深度网络整合到组合卷积神经网络中,这是一个统一的深度模型,对部分遮挡具有天生的鲁棒性。
2.虽然之前的工作[37,14,33,38]只评估人工遮挡图像的部分遮挡的鲁棒性,我们也评估MS-COCO数据集的部分遮挡对象的真实图像。我们证明了合成网在遮挡下对部分遮挡对象进行分类时达到了最先进的结果。
3.据我们所知,我们是第一个研究图像中定位遮挡物的任务,并表明合成网络在本质上优于基于字典的合成模型(dictionary-based compositional models )[14]。

2.Related Work

**Classification under partial occlusion.**最近的研究[38,14]表明,与人类相比,当前的深度架构对部分遮挡的鲁棒性明显较差。Fawzi and Frossard [7] showed that DCNNs are vulnerable (脆弱的)to partial occlusion simulated (模仿)by masking small patches of the input image. 相关研究[6,35]提出在训练过程中通过遮挡图像中的patch来增强部分训练数据。然而,我们在第4节的实验结果表明,这种数据增强方法对DCNN对部分遮挡的鲁棒性影响有限。一个可能的解释是模拟遮挡物的困难,由于他们在外观和形状方面的巨大差异。Xiao等人[33]提出了TDAPNet,这是一种具有注意机制的深度网络,它可以掩盖较低层的遮挡特征,提高对遮挡分类的鲁棒性。结果表明,该模型在具有真实遮挡的图像上表现不佳。与深度学习方法相比,生成的合成模型[12,39,8,4,16]已被证明,当使用鲁棒遮挡模型[13]增强时,对部分遮挡具有天生的鲁棒性。该模型已成功应用于部分遮挡的物体部分检测[29,37]和部分遮挡下的二维模式识别[10,15]。
**Combining compositional models and DCNNs.**Liao等人[19]提出在学习过程中对dcnns的特征表示进行正则化聚类,将可组成性融入dcnns中。他们的定性结果表明,产生的特征聚类类似部分检测器。Zhang等人[36]证明了部分检测器是通过限制特征映射的激活使其具有局部分布而出现在DCNNs中的。然而,这些方法并没有被证明能够增强深度模型对部分遮挡的鲁棒性。相关工作提出将卷积核正则化为稀疏[24],或者强制对不同对象[23]解除特征激活.由于合成模型不是显式的,而是隐式的编码在dcnns的参数中,因此得到的模型仍然是对部分遮挡不鲁棒的黑箱dcnns。许多著作[18,25,26]使用可微的图形模型将部分-整体组合集成到dcnn中。然而,这些模型是纯判别的,因此也是没有内部机制来解释部分遮挡的深度网络。Kortylewski等人[14]提出从DCNN的特征学习基于生成词典的合成模型。如果DCNN的分类评分低于某一阈值,他们使用自己的合成模型作为独立训练的DCNN的“备份”。
在这项工作中,我们建议将生成的合成模型和dcnns整合成一个统一的模型,该模型对部分遮挡具有天生的鲁棒性。特别地,我们建议用一个可微的合成模型来替代完全连接的分类头。我们用反向传播训练模型参数,同时根据最后一个卷积层的神经feature激活将合成模型正则化生成。我们提出的模型在分类部分遮挡对象的同时也能够准确定位遮挡对象方面显著优于相关方法。3.在3.1节中,我们介绍了一个完全生成的合成模型,并在3.2节中讨论了如何在端到端系统中与DCNNs集成。
因公式太多,笔者不熟练在csdn上敲上公式,剩余内容已经上传到资源。
https://download.csdn.net/download/hb_learing/15112899

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值