用于图像识别的局部关系网络

最新推荐文章于 2022-12-06 16:43:37 发布

大烤翅

最新推荐文章于 2022-12-06 16:43:37 发布

阅读量568

点赞数 2

分类专栏：论文笔记文章标签：网络

本文链接：https://blog.csdn.net/weixin_39627422/article/details/121062716

版权

本文提出了一种名为局部关系层的新型图像特征提取方法，旨在解决卷积层在建模不同空间分布的视觉元素时的低效率问题。局部关系层基于像素对的组合关系自适应调整聚合权值，以更有效地组合视觉元素，促进语义推理。在ImageNet分类任务中，采用局部关系层构建的网络LR-Net在准确率上超过了常规卷积网络，尤其是在使用大核时表现更优。此外，LR-Net在对抗性攻击和大型核邻域利用方面也展现出更强的鲁棒性。

摘要由CSDN通过智能技术生成

Local Relation Networks for Image Recognation ICCV 2019

摘要

多年来，卷积层一直是计算机视觉领域中主要的特征提取方法。然而，卷积中的空间聚合基本上是一个模式匹配过程，它使用固定的滤波器，在建模不同空间分布的视觉元素时效率很低。这篇文章提出了一个能够基于局部像素对的组合关系自适应确定聚合权值的图像特征提取方法，称作局部关系层。使用这种关系方法，它可以以一种更有效的方式将可视化元素组合到更高级的实体中，这有利于语义推理。在像ImageNet分类这样的大规模识别任务中，采用局部关系层构建的网络(Local Relation network, LR-Net)比常规卷积构建的网络具有更大的建模能力。

Introduction

人类有非凡的能力“用有限的手段看无限的世界”。通过感知有限的一组低级视觉原语，它们可以有效地构成无限的高级视觉概念，从而形成对所看到的场景的理解。

在计算机视觉中，这种合成行为可以通过在卷积神经网络中构建层次表示来近似，在卷积神经网络中，不同层代表不同层次的视觉元素。在较低的层中，提取边缘等基本元素。这些在中间层组合成对象的部分，最后在更高的层，整个对象被表示出来。

尽管一系列卷积层可以构建层次表示，但其将低级元素组合到高级实体的机制在概念推理方面可能是非常低效的。卷积层不是识别元素如何有意义地结合在一起，而是充当模板，根据卷积过滤权值在空间上聚合输入特征。为了有效地组成特征，需要学习和应用合适的过滤器。当试图推断具有显著空间可变性的视觉概念时，如图1所示的几何变形，这个要求是有问题的，因为过滤学习可能面临不同有效组合可能性的组合爆炸。本文提出了一种新的计算网络层，称为局部关系层，该层可以自适应地推断局部区域中视觉元素之间的有意义的组成结构。

不同于卷积层对空间相邻的输入特征采用固定的聚合权值，我们的新层基于局部像素对的可组合性调整聚合权值。这种嵌入可能还可以解释几何先验，这在视觉识别任务中已经证明是有用的、通过学习如何在局部区域内自适应地组合像素，可以建立更有效和高效的组合层次结构。

在深度网络中，局部关系层可以作为卷积层的直接替代，增加的开销很少。利用这些层，我们开发了一种称为局部关系网络(Local Relation network, LR-Net)的网络架构，该架构遵循了ResNet中对残余块进行叠加的做法，以实现对非常深的网络的优化。在相同的计算预算下，具有26层和瓶颈残块的LR-Net在ImageNet图像分类任务的Top 1精度上比常规的26层ResNet高出绝对3%。改进的精度也实现了基本残差块和更深的网络(50和101层)。

除了较强的图像分类性能外，本文还展示了局部关系网络的一些良好特性。其中之一是与常规卷积网络相比，它们在利用大型核邻域方面更有效。常规的ConvNets主要使用3×3的核，因为在更大的尺寸下饱和，而LR-Net被发现受益于7×7甚至更大的核。我们还表明，该网络对于对抗性攻击更健壮，这可能是由于它在空间域的组成能力。

我们注意到，虽然深度神经网络都形成了自底向上的图像特征层次，但它们通常是基于静态卷积权值来聚合特征的，可以看作是一种自顶向下的方式。相比之下，我们的组合方法基于局部像素对的可组合性自适应计算权值，称为自底向上的方式。最近也有一些方法可以这样做，但它们要么不适用于大规模的识别任务，要么只是作为常规卷积的补充作用，而不是替代。此外，这些方法对整个输入特征图进行空间聚合，而没有考虑像素之间的几何关系，而我们的网络显示了位置和几何先验的重要性。研究结果表明，自底向上确定特征聚合权值的方法是可行和有效的。

2 Related Works

卷积层和扩展：它最近的流行始于AlexNet[17]在ImageNet[7]上对对象进行分类的出色表现。从那时起，卷积层几乎被专门用于提取基本的视觉特征。

已经提出了正则卷积层的扩展。在一个方向上，通过限制聚集输入通道的范围，可以获得更好的精度-效率。代表性的著作有组卷积[17,31]和深度卷积[5,11]。另一个方向是修改聚合的空间范围。这样做是为了扩大接受域，例如通过atrous/ extended卷积[4,33]，并通过主动[14]和变形卷积增强几何变形建模的能力[6,36]。

有些工作放宽了跨位置共享聚合权重/范围的要求。局部连接层[25]采用一种简单的方法，它学习不同位置的独立聚合权值。由于正则卷积失去了一些重要的性质，包括平移不变性和知识迁移，它的应用受到了限制。在该方向的其他工作中，提出了生成位置自适应聚合权值[15]或自适应聚合范围的卷积层。

我们注意到，正则卷积和上述扩展都以自顶向下的方式操作，根据图像外观或接受域内的空间位置决定它们的卷积行为。相比之下，本文提出的层基于局部像素对的可组合性以自下而上的方式确定聚合权值，我们认为这种方式提供了视觉世界中更有效的空间组合编码。同时，该层遵循并适应了来自这些卷积变体的一些有利的设计原则，如局部性、几何先验的使用、以及跨位置的权/元权共享，这些原则已经被发现是有效提取视觉特征的关键。

胶囊网络：为了解决卷积层的一些缺点，最近的研究是基于像素对的可组合性，以自底向上的方式确定聚合权值。一个代表性的工作是胶囊网络[24,10]，其中可组合性是通过迭代路由过程计算的。在路由的每一步中，如果聚合前后的

最低0.47元/天解锁文章

大烤翅

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
用于图像识别的局部关系网络

Local Relation Networks for Image RecognationICCV 2019摘要多年来，卷积层一直是计算机视觉领域中主要的特征提取方法。然而，卷积中的空间聚合基本上是一个模式匹配过程，它使用固定的滤波器，在建模不同空间分布的视觉元素时效率很低。这篇文章提出了一个能够基于局部像素对的组合关系自适应确定聚合权值的图像特征提取方法，称作局部关系层。使用这种关系方法，它可以以一种更有效的方式将可视化元素组合到更高级的实体中，这有利于语义推理。在像ImageNet分类这..
复制链接

扫一扫

专栏目录