HYNETER：用于对象检测的混合网络转换器

BestHammer

已于 2023-03-05 18:28:03 修改

阅读量146

点赞数

分类专栏：学习论文文章标签：网络深度学习计算机视觉

于 2023-03-05 16:11:05 首次发布

本文链接：https://blog.csdn.net/BestHammer/article/details/129346232

版权

学习论文专栏收录该内容

4 篇文章 0 订阅

订阅专栏

摘要

在本文中，我们指出，基于CNN的检测器和基于Transformer的检测器之间的本质差异是特征提取和传播中的局部信息和全局相关性之间的差距，这导致了基于Transformer方法中小对象的性能更差。为了解决这些差异，我们提出了一种新的视觉变换器，称为Hyneter的混合网络变压器（Hyneter），在前期实验表明，这种差距会导致基于CNN和基于Transformer的方法增加大小差异，从而导致结果不均匀。与以往方法中的分而治之策略不同，Hyneters由Hy-brid网络主干（HNB）和双交换模块（DS）组成，它们集成了本地信息和全球依赖，并同时传输它们。基于平衡策略，HNB通过将卷积层嵌入到Transformer块中来扩展局部信息的范围，DS调整了对补丁外部全局依赖性的过度依赖。消融研究表明，Hyneters在目标检测中以+2.1～13.2APon COCO和+3.1～6.5mIoUonVidrone的较大余量实现了最先进的性能，模型尺寸更轻。Hyneters在多个视觉任务上取得了最先进的结果，例如物体检测（60.1APonCOCO，46.1on Visdrone）、语义分割（54.3APon ADE20K）和实例分割（48.5APmaskonCOCO），并超越了以前的最佳方法。

介绍

卷积神经网络（CNN）多年来一直主导计算机视觉建模。随着越来越大的神经网络和逐渐复杂的协同进化结构的帮助，近年来，性能得到了显著的改善。然而，学者们关注的是更大的模型大小、更多样的卷积核和更复杂的网络结构，这导致了总体性能的进步，模型大小不成比例。
另一方面，Transformer在视觉任务方面取得了巨大进展，这源于自然语言处理（NLP）。Transformer专为序列建模和转导任务而设计，以其关注特征中的全局依赖性而闻名。NLP的巨大成功使研究人员开始研究它对计算机视觉的适应性，最近它在某些任务上显示了很有希望的结果。与基于CNN的方法相比，视觉变换器及其后续方法（包括混合方法）暴露了尺寸敏感性能的差异，因为它们对局部信息和全局依赖性采取了不同的策略[1]。基于CNN的检测器和基于Transformer的检测器之间的本质区别来自于特征提取和传播中局部信息与全局依赖性之间的差距。然而，我们还没有对这些差异进行足够的研究。在本文中，我们致力于找到答案，并提出一种新的愿景变压器. 请添加图片描述

图1。重组对象的图示。我们在COCO和Visdrone的多个类图像中重构了数千个对象。例如，假设有3个对象（（d）～（f））检测到未知标签，但基于Transformer的检测器检测到伪标签（马、鸟/风筝和牛）。基于变压器的检测器应检测（b）和（c）未识别的标签，但真标签（人类）。

探索从图1所示的意外实验开始。我们在多个类别的图像中重组了数千个物体，背景各异，如海洋、草原、天空、室内环境、雪、操场、沙漠、森林等。例如，人类被重组为马、鸟/风筝、牛等,在图1中，（d）～（f）假定为检测到未知标签，基于Transformer探测器的伪标签（马、鸟/风筝和牛）,然而，基于CNN的探测器显示出更好的性能。通过伪标签（伪速率）检测到的这种速率表明，基于Transformer的方法依赖于全局依赖性，并获得了细节上的不等同特征信息[1]。然而，基于CNN的方法正好相反。

图2。基于Transformer、基于CNN和Hybrid方法的特征图图解。混合特征图（c）整合了全局相关性（a）和局部信息（b）的特征，这对所有大小的对象都有利

在本文中，我们证明了基于CNN和基于Transformer的检测器之间的本质区别是在自然提取和传播中局部信息和全局相关性之间的映射。首先，我们筛选了4个影响因素：CNN层的数量（CL）、Transformer块的数量（TB）、令牌的数量（NT）和注意力分数缩放器（δ）。对COCO目标检测中4个因素（AP、 $AP_S$ 、伪速率）的影响进行了预实验。然后，先前的实验表明，局部信息倾向于通过增加 $AP_S$ 来帮助改进AP，而全局依赖性倾向于通过提高 $AP_M$ 和 $AP_L$ 来实现相同的效果，这导致了基于CNN和基于Transformer的检测器之间的本质区别。同时，它们都会相互干扰（见表1～表5）。
鉴于上述结论，我们提出了一种新的愿景转换器，称为混合网络转换器（Hyneter），它由混合网络主干（HNB）和双交换模块（DS）组成。混合网络主干具有卷积和自关注交织分布的等效位置。我们的主干通过将卷积层分阶段嵌入Transformer块来扩展本地信息的范围，从而将本地信息和全局依赖性同时传递给Neck或Head。
双交换模块建立跨窗口连接，以维护修补程序内部的本地信息，同时削弱对修补程序外部全局依赖性的过度依赖。基于平衡策略，Hyneters同时集成和传输本地信息和全局依赖关系，因此能够显著提高性能.
消融研究表明，具有HNB和DS的Hyneter在COCO上具有+2.1～13.2AP的大裕度，在目标探测中具有+3.1～6.5mIoUon Vis无人机的大裕量，从而达到最先进的性能。此外，Hyneters在多个任务上取得了最先进的性能，例如对象检测（60.1APon COCO，46.1on Vis无人机）、语义分割（54.3APon ADE20K）和位置分割（48.5APmason COCO），并超越了以前的最佳方法（见表6～12）。

接下来作者分析了影响因素，在不失一般性的情况下，使用代表性DETR来剖析CNN层（CL）、Trans former块（TB）、令牌数量（NT）和衰减分数缩放器（δ）的影响[41]。δ是控制Transformer中注意力得分计算的参数：
DETR强调4个因素（CNN，Transformer block,tokens,注意力分数）分析后得出结论；随着CNN层的增加，检测器将更加关注本地信息，减少对全局依赖性的依赖性，并将逐步改进 $A P$ $和AP_S$ ，Transformer块的增加将促使检测器更加依赖全局依赖性，从而提高性能，但会损害 $AP_S$ ,token的增加将削弱方法对全局依赖性的依赖性，同时改进方法 $A P$ 和 $AP_S$ ，但增加模型大小,注意力评分标尺的增加同时提高了AP，增加了对全局依赖性的依赖，也不会增加模型大小.
得出结论：本地信息倾向于增加 $AP_S$ 改善AP，而全局依赖性倾向于增加 $AP_M$ 和 $AP_L$ 以改善AP。同时，他们两个都会互相干扰。局部信息与特征提取和传播中的全局相关性之间的差距导致基于小对象Transformer的方法性能较差。计算自关注会影响局部信息特征的提取，而卷积层会停止提取全局相关性的特征.

请添加图片描述

图4。（a） Hyneter 1.0的体系结构。在一级Transformer块（顶部）中有2个Transformer块，在一级CNN层部分（底部）中有2层多粒度卷积层。第一个Transformer块中的位置编码、补丁分区和自我关注，但其他块中的补丁分区和自关注。（b）变压器块（顶部）和CNN层（底部）之间的单向特性集成的图示，如图2（c）所示。
将cnn，block重新排序在dotproduct。

由此提出本文混合网络Transformer作为多个计算机视觉任务的主干，由混合网络主干和双交换模块组成。

混合网络主干

混合网络主干网具有卷积和自关注交织分布的等效位置。我们的主干网扩展了本地信息的范围，因此本地信息和全球数据将同时传递给Neck Head。我们的主干有4个阶段，从3个多粒度内核的协同进化层开始。这个多粒度卷积层减少了tokens的数量，并增加了维数。数据特征S将被发送到卷积层和Transformer块中。如图4（b）所示，Transformer在第1和第2阶段中阻止了全局相关性的提取特征映射，并阻止了CNN层提取局部信息的特征映射。
第1阶段最终变压器块的输出（ $C×\frac{H\times W}{4\times 4}$ ）将被重新查看并排列为X（ $C×\frac{H}{4}×\frac{W}{4}$ ）。在卷积层之后，S变为具有相同大小（ $C×\frac{H}{4}×\frac{W}{4}$ ）的 $S_1$ 。 $S_1$ 和 $X_i$ 之间的点积是全局相关性和本地信息的组合键操作。点积运算后的 $X_1$ （ $X_1=S_1·X$ ）将进入激活功能 $X_2$ =tanh（ $X_1$ ）。 $X_2$ 和X的相加复制将是第1阶段的输出。在重新查看和排列两次后，转到第2阶段的输入（X′）
使用混合网络方法，连续的自我注意Transformer块计算如下

请添加图片描述

阶段1和2中的Transformer块是纯粹的自我关注，保持tokens的数量，并与卷积层输出接口一起使用。第3阶段和第4阶段的模块将通过双切换实现。GMSA意味着全球多头自我关注。

双重切换

双交换模块将在第3阶段和第4阶段实施，以维护本地信息，同时削弱对全局依赖性的过度依赖。全局自我关注的全局依赖性在Transformer块中进行处理，其中计算令牌之间的依赖性。考虑到NT，计算导致了二次复杂度，这对于许多具有巨大NT的视觉任务来说是不够的。为了提高效率，全局多头自我关注（GMSA）将以非重叠的方式在本地窗口中实现。

如图5所示，变压器块的输出将被重新查看并排列为X（ $C×\frac{H}{4}×\frac{W}{4}$ ）。然后，特征图中相邻的列将相互切换。在列切换之后，特征图的相邻行也将相互切换。单人切换结束。最后，单独切换的特征映射中的交错列/行将再次相互切换.

双交换模块建立跨窗口连接，同时维护补丁中的本地信息，然后是层规范（LN）、变压器块和具有剩余连接模块的多层感知（MLP）

在主干的第1阶段和第2阶段之后，具有丰富本地信息的补丁中的特性与周围补丁建立了一致的全局依赖关系。双切换暂停建立过度全局依赖关系的过程，同时保留小对象性能（ $AP_S$ ）的本地信息

请添加图片描述

其中 $X_l$ 和 ${X}_{l+1}^{'}$ 表示阶段l中的特征和阶段l+1的输入

请添加图片描述

图5。双开关的图示。该过程执行为（a）→（b）→（c）→（d）。

BestHammer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HYNETER：用于对象检测的混合网络转换器

卷积神经网络（CNN）多年来一直主导计算机视觉建模。随着越来越大的神经网络和逐渐复杂的协同进化结构的帮助，近年来，性能得到了显著的改善。然而，学者们关注的是更大的模型大小、更多样的卷积核和更复杂的网络结构，这导致了总体性能的进步，模型大小不成比例。另一方面，Transformer在视觉任务方面取得了巨大进展，这源于自然语言处理（NLP）。Transformer专为序列建模和转导任务而设计，以其关注特征中的全局依赖性而闻名。
复制链接

扫一扫