论文解读:《Learning Generalisable Omni-Scale Representations for Person Re-Identification(OSNet)》

介绍

有效的行人再识别应该具有区分性,学习到的特征表示既能区分外貌相似的行人,又能在不额外训练的情况下进行跨数据集部署。本文提出了新的CNN架构来应对这两个挑战。首先,是提出了一种“全尺度网络(OSNet)”的CNN结构,不仅可以捕获不同的空间尺度,同时也能封装这些尺度的协同组合,即全尺度特征。基本构建块由多个卷积流组成,每个卷积流检测不同尺度范围的特征。对于全尺度特征学习,提出了一种统一的聚合门,将多尺度特征与信道权值动态融合。OSNet也是一个轻量级的结构,因其构建块包含分解卷积。其次,为了得到泛化性更强的特征表示,本文在OSNet中应用了实例规范化层(IN层)来应对跨数据集的差异。为了确定在网络结构中应用IN层的最佳位置,本文还提出了一种有效的可微体系结构搜索算法。大量实验表明,在传统相同数据集条件下,OSNet比现有的模型要小得多,但它仍然能够达到最佳性能。在更具挑战性但更实用的跨数据集测试中,OSNet能够击败大多数无监督域自适应方法,而无需任何目标数据即可进行模型自适应。

方法

1. Depthwise Separable Convolutions。该方法主要用于减少网络参数量和计算量。在设计一个轻量级的网络结构时,本文采用了深度可分离卷积(Depthwise Separable Convolutions [1][2])。该方法主要将一个原始卷积核w (k×k×c×c') 分别拆分为u (k×k×1×c') 和v (1×1×c×c')。k 代表卷积核大小,c 代表输入通道数,c' 代表输出通道数。这样对于一张大小为 H×W 的图像而言,就可以将计算量从 H×W×k×k×c×c' 减少到 H×W×(k×k+c)×c',将参数从 k×k×c×c' 减少到 (k×k+c)×c'。在之后的试验中,使用这种轻量级的结构 Lite 3×3 来代替原始的3×3网络结构,如Fig.3所示。

2. Omni-Scale Residual Block。该方法主要用于提取图片不同尺度特征并将其融合。通常情况下,感受野会随着网络的加深而变大,本方法采用了不同深度的子网络来对输入图像提取体征,从而得到不同尺度的特征信息。

OSNet的组成块是由 Lite 3×3 组成的一种残差结构,如Fig.4以所示。

将输入 x 传入 Fig.4(a) 的结构中,可以得到输出 y:

表示一个 Lite 3×3 卷积层学到的单一尺度特征,F表示映射方程。其中 1×1 的网络结构只是用来控制特征通道而不是合并空间信息。

为了能够获得多尺度的特征信息,本文的OSNet将映射方程进行扩展,用一个指数 t 来表示特征尺度。即对于 ,就表示将 t 个Lite 3×3 结构叠起来(其中 t > 1),这时的感受野为 ( 2t + 1) × ( 2t + 1 ),因此可以重新表示为多个尺度之和:

T代表总共的尺度分支数目。当 T= 4时,OSNet bottleneck结构如图,此时共有4个尺度分支,感受野分别为 3 × 3, 5 × 5, 7 × 7, 9 × 9。

为了将这些不同尺度的特征结合动态起来,需要根据输入图像来赋予不同尺度特征以不同的权重。本文采用了一种可学习的神经网络结构(aggregation gate, AG),该结构由一个无参数的全局平均池化层,一个带ReLU激活隐藏层的多层感知机和一个sigmoid激活函数组成,同时根据 [3][4]中的方法来减少多层感知机中间层参数。在每个OS残差块中,AG在各个分支中共享参数,参数的数量独立于分支数目 T,因此模型变得更具可伸缩性,进行梯度反向传播时,统一的AG具有良好的表现。

3. Inserting Instance Normalisation Layers。该方法主要用于增加模型的泛化能力。Batch Normalisation (BN)方法是通过mini-batch中的统计数据来对每个样本进行规范;而Instance Normalisation(IN)方法则是基于一个channel内做归一化,算H*W的均值和方差[5],这样有助于将实例特定的风格移除,具有减少由独特环境,照明条件,相机设置等带来图像风格变化的潜力。为了将 IN 与re-ID CNN相结合,本文提出了结构搜索空间(Fig.5),共有三种组合:OS+INin block(Fig.5(b)), OS+INout block(Fig.5(c))和 OS+INin−out block(Fig.5(d)),然后采用 Relaxation and Reparameterisation Trick 来选取最佳位置。

在应用中,需要在一个不同的数据集上使用该方法来确定网络结构,然后才能在目标数据集上进行实验。

实验

1. 大规模person re-ID数据集

2. 小规模person re-ID数据集

3. 无监督person re-ID

 

参考文献

[1] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang,T. Weyand, M. Andreetto, and H. Adam, “Mobilenets: Efficientconvolutional neural networks for mobile vision applications,”arXiv preprint arXiv:1704.04861, 2017.

[2] F. Chollet, “Xception: Deep learning with depthwise separableconvolutions,” inCVPR, 2017.

[3] S. Woo, J. Park, J.-Y. Lee, and I. So Kweon, “Cbam: Convolutionalblock attention module,” inECCV, 2018.

[4] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,”inCVPR, 2018.

[5] https://blog.csdn.net/shanglianlm/article/details/85075706

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值