CVPR-2019- SiamDW: Deeper and Wider Siamese Networks for Real-Time Visual Tracking 阅读笔记

论文地址:https://arxiv.org/abs/1901.01660
代码地址:https://github.com/researchmm/SiamDW

创新点:
首先,提出了一组基于bottleneck残差块的CIR单元,其次,通过堆叠CIR单元设计了两种更深更宽的网络。并在SiamFC和SiamRPN基础上进行了应用改进。

一、 动机

改变孪生网络追踪器骨干网络较浅的问题,研究如何利用更深更广的神经网络。
归结上述问题的原因主要有两点:
① 神经元感受野的大幅增加导致特征可识别性和定位精度降低;
② 卷积的网络填充会导致学习中的位置偏差。
为了解决这些问题,我们提出了新的残差模块来消除padding的负面影响,并进一步利用这些模块设计新的体系结构来感受野大小和网络步长。

二、 主要贡献

① 对主干网中影响跟踪精度的因素进行了系统的研究,并为孪生网络跟踪框架提供了架构设计指南。
② 基于提出的无填充残差单元,为孪生网络跟踪器设计了更深更广的网络架构。实验结果表明,新的体系结构对基线跟踪器提供了明显的改进。

三、 主要内容

实验证明直接用更深更宽的网络取代浅层骨干网络并不能直接提升模型的跟踪能力。(这里宽度是指一个模块中分支的数量。)经过对Siamese网络结构的分析发现,神经元感受野大小、网络步幅和特征填充是影响跟踪精度的三个重要因素。特别是,感受野决定了在计算特征时使用的图像区域。较大的接受域提供更大的图像背景,而较小的接受域可能无法捕获目标物体的结构。网络步幅对定位精度的影响很大,尤其是对小目标的定位。同时,控制输出特征图的大小,影响特征的可分辨性和检测精度。此外,对于一个完全卷积的架构,卷积特征填充引入一个潜在的位置偏差,当目标移动到搜索范围边界附近时,很难做出准确的预测。这三个因素共同阻止了Siamese跟踪器从当前更深更复杂的网络架构中提高性能。
研究分析表明,孪生网络跟踪器更喜欢4或8的网络步长,VGG-10和ResNet-17最佳的接收野大小约为输入样本图像z大小的60% ~ 80%,OFS≤3不利于跟踪精度。
当目标物体移动到图像边界时,其峰值并不能准确地指示目标的位置。
在这里插入图片描述

总结了四个基本准则来缓解网络架构中结构因素的负面影响

① 孪生网络追踪器喜欢相对较小的网络步幅。网络步幅影响两个相邻输出特征的接收域重叠率。从而决定了定位精度的基本程度。因此,当网络深度增加时,步幅不应相应增加。关于准确性和效率,一个经验上有效的选择是将步幅设置为4或8。
② 输出特征的接受域应根据其与样本图像大小的比值来设置。样本图像的经验有效比率为60% ~ 80%。适当的比例允许网络提取一组特征,每个特征获取目标对象不同空间部分的信息。这使得提取的特征在计算区域相似度时具有鲁棒性。特别是最大RF不能大于样本图像,否则性能会明显下降。
③ 在设计网络结构时,应综合考虑网络步幅、接收域和输出特征大小。这三个因素不是相互独立的。如果一个改变了,其他的也会随之改变。同时考虑这些特征可以帮助所设计的网络在Siamese框架下提取出更具鉴别性的特征。
④ 对于完全卷积的Siamese匹配网络,处理两个网络流之间的感知不一致问题至关重要。有两个可行的解决方案。一种是删除网络中的填充操作,另一种是扩大输入样本和搜索图像的大小,然后裁剪出受填充影响的特征。

Deeper and Wider Siamese Networks

在这里插入图片描述

① CIR
残差单元因其易于优化和表达能力强而成为网络架构设计中的关键模块。它由3个堆叠的卷积层和一个绕过它们的捷径连接组成,如图3(a)所示。这三层是1×1、3×3和1×1卷积,其中1×1层负责减少并恢复维度,而3×3层则作为较小的输入和输出维度的瓶颈。这个瓶颈卷积包括大小为1的零填充,以确保添加前的输出大小兼容。
CIR Unit:网络填充可能会在Siamese框架中引入位置偏差。因此,在利用残差单元建立连体网络时,必须去除残差单元中的填充。为此,我们在添加特征后加入一个裁剪操作来增加残差单位。裁剪操作删除了计算受零填充信号影响的特性。由于填充大小是瓶颈层中的一个,所以只有特征图边缘最外层的特征被裁剪掉。这个简单的操作整洁地去除残余单元中受填充影响的特征。
Downsampling CIR (CIR-D) Unit:下采样残差单元是网络设计的另一个关键组成部分。它被用来减少特征地图的空间大小,同时增加特征通道的数量。与残差单元类似,下采样单元也包含填充操作,如图3(b)所示。因此,我们还对其结构进行了修改,以消除填充造成的负面影响。如图3(b’)所示,我们在瓶颈层和捷径连接中都将卷积步幅从2改变为1。在添加操作后再次插入裁剪,以删除受填充影响的特征。最后,利用最大池对特征图进行空间降采样。这些修改的关键思想是确保只去除填充影响的特征,同时保持固有的块结构不变。如果我们只是在添加操作之后插入裁剪,就像在建议的CIR单元中所做的那样,而不改变下采样的位置,则裁剪后的特征将不会从输入图像的最外层像素接收到任何信号。随着网络深度的增加,这将有效地导致更多的图像内容被删除,从而导致提取的特征有噪声或不完整。
CIR-Inception and CIR-NeXt Units:我们进一步装备了CIR单元的多分支结构,使它可以用于建立广泛的网络。类似于Inception和ResNeXt,我们用多个特征转换拓宽了CIR单元,生成如图3(c-d)所示。具体来说,在CIR- Inception结构中,我们将1×1卷积插入到快捷连接中,并通过连接而不是相加来合并两个分支的特性。在CIR- NeXt中,我们将瓶颈层分解为32个变换分支,并通过相加进行聚合。另外,对于CIR- Inception和CIR- NeXt的下采样单元,其修改与cird相同(图3(b’)),只是减小了卷积步长,增加了max-pooling。这两个多分支结构使单元能够学习更丰富的特征表示。

② 网络架构
在这里插入图片描述

通过叠加上述CIR单元,我们建立了更深更广的网络。遵循我们的设计方针。首先,我们确定网络步幅。采用步长8构建三级网络,采用步长4构建二级网络。然后,我们堆叠CIR单元。我们控制每个阶段的单元数量和下采样单元的位置。目的是确保最后一层神经元的感受野大小在导出范围内,即样本图像的60%-80%。此外,当网络深度增加时,感受野可能超过这个范围。因此,我们将步幅减半为4以控制感受野。
Deeper Networks:
我们使用CIR和CIR-D单元构建更深层次的网络。其结构与ResNet相似,但网络步幅、接收域大小和构建块不同。在表3中,我们给出了四种深度CIR网络,即CIResNet-16、19、22和43。由于这些网络具有相似的结构,我们只给出其中两个的详细信息:CIResNet-22和CIResNet-43。
CIResNet-22分为3个阶段(stride=8),由22个加权卷积层组成。除了第一个7×7卷积,其他的都是CIR单元。在7×7卷积之后有一个裁剪操作(大小为2)来删除受填充影响的特征。前两个阶段的特征降采样是按照原始ResNet进行卷积和步长为2的最大池化。在第三阶段,下行采样由建议的CIR-D单元执行,该单元位于本阶段的第一个块(共4块)。当特征图大小向下采样时,滤波器的数量增加一倍,以增加特征的可分辨性。输出特征图的空间大小为5×5,每个特征接收信号的区域大小为输入图像平面上的93×93像素,即对应的感受野大小。
在CIResNet-43中,进一步将网络深度提升到43层。由于CIResNet-43的深度较大,其设计只有2个阶段,以保持其接受域大小在建议范围内。在CIResNet-43的第二阶段,有14个区块,其中第四个区块有一个CIR-D单元,用于特征下采样。值得注意的是,CIResNet-43几乎达到了能够在SiamFC框架下实现实时速度的最大骨干网络深度。
Wider Networks:
分别使用CIR- Inception和CIR- NeXt单元构建了两种类型的更宽的网络架构。在这里,我们只给出一个22层的结构作为例子,因为其他更宽的网络也类似于这种情况。如表3所示,宽网络CIResInception-22和CIResNeXt-22在网络步长、构建块数和输出特征大小方面与CIResNet-22具有相似的结构。但通过多分支构建块,网络宽度分别增加了2倍和32倍。在CIResInception-22中,由于多分支连接,感受野大小变得多样化(即13 ~ 93),但最大大小仍然保持在建议的范围内。

③ 应用
使用我们设计的网络替换掉SiamFC和SiamRPN中的浅层主干网络。

四、 实验结果

训练数据集:
SiamFC的训练图像对来自于ImageNet VID数据集,SiamRPN的训练图像对来自于ImageNet VID和Y outube-BB,与原始框架的训练图像对相同示例图像的大小为127×127像素,搜索图像的大小为255×255像素。
测试数据集:OTB-2013、OTB-2015、VOT15、VOT16、VOT17
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、 结论

在本文中,我们为孪生网络跟踪器设计了更深更宽的网络架构。这是由于观察到直接用现有的强大网络替换主干不会带来改进而产生的。我们仔细研究了主要原因,确定了感受野大小、网络填充和步长是关键因素。在五个基准上的实验证明了提出的体系结构的有效性,在五个数据集上获得了竞争性的性能。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值