【ReID】Omni-Scale Feature Learning for Person Re-Identification

阅读了2019 ICCV的文章Omni-Scale Feature Learning for Person Re-Identification[1],上次略读的时候看它用到了本文的OSNet,所以来看看。文章提出了全尺度(omni-scale)学习的概念,并就此提出了全尺度学习的网络OSNet,来解决ReID中需要关注不同尺度特征流的问题。模型在多个benckmark数据集上测出了SOTA。

论文一览:

痛点

图1

1)由于摄像机视角等问题,行人重识别的类内差异可以非常大,如图1(a),明明都是正实例,一个人的正面和背面视角的差距非常大。

2)人们在公众场合常常撞衫/穿着非常相似的服装(甚至可能身材外形发型等等形体特征都很相似),如图1(a)(b)©(d)的第三张图片为非常相似的负样本/实例。

因此为了解决这两种挑战,文章提出了能够提取全尺度特征的网络架构OSNet,来学习包括同质尺度和异质尺度的多尺度混合特征。(这里的写作非常好,可见#写作#一节)

文章接下来大段地Introduction来讲实例(我还是第一次见),比如图1中的人不仅仅需要全局的特征,还需要学习细小区域的特征,如人的鞋子。我就不赘述了,总而言之,这种需要多种尺度的学习特征的需求,和当前CNN对这种方向的缺失,催生了本文的工作。(这里的写作非常好,可见#写作#一节)

模型

用于构造极致轻量级网络的3x3Conv模块和Lite3x3Conv结构示意图:

轻量使得多分流构造提取全尺度特征的学习成为可能。

先给出基本块,Lite 3x3卷积基本块和AG模块如下:

读过SENet[1]这篇文章的就知道,所谓的AG就是SE module/channel attention module,没有一点点差别。

借题解释一下depthwise convolution,正常卷积示意图如下:


depthwise convolution(即分组卷积分组到了极致)如下:

(注:这三张卷积图需要无水印的原图/原文件的朋友请私信我。)

下面是文章给出的baseline bottleneck和本文使用的bottleneck,即我们所说的OSBlock:

OSBlock实际:

这里的AG/channel attention是共享的,作者提出AG模块作为一种子网络,在所有分支共享通道维参数,能够结合多分流特征学习更细粒度特征融合。不同支路分别有不同数量的Lite 3x3Conv,最后经过AG再融合,形成一个残差结构。此即为OSBlock,输入输出的feature map尺寸并不改变。而多分支结构用于提取不同尺度/全尺度的特征。

文章给的OSNet结构示意:

OSNet实际结构:

"723"Conv表示kernel size=7,stride=2,padding=3,(b, c, h, w)表示,(batch size, channel, height, width)。可以看到OSNet以两个OSBlock,一个1x1Conv+BN+ReLU的堆叠为一个stage,每一个stage将feature map 的size下采样到了原来的1/2,将模式进行了3个stage最后输出id loss。

总得来说OSNet设计特点主要有,基于depthwise convolution的轻量卷积块,AG共享模块在多分支进行通道维特征融合,基于多分支提取的残差结构轻量基础块OSBlock,多层OSBlock多阶段堆叠的OSNet。

实验

实验所使用的数据集如下

大数据集下的SOTA实验如下图,上半部是同为轻量级网络模型的对比,可见同样是轻量级网络,OSNet以更出色的表现达到了SOTA。下半部是几乎所有标杆工作SOTA对比,可见OSNet的表现基本上是把其他方法比下去的,值得一提的是有时候OSNet会稍稍落后于DGNet而排名第二,但是这两个SOTA是兼容性的竞争,DGNet完全可以跟OSNet结合使用,达到更大的SOTA,所以这并不是短板。

在两个小数据集上的对比如图:

可以看到OSNet同样也是达到了SOTA。

网络架构的分离实验如下图,这个分离实验做的很标准,值得学习。

文章测了T在不同值得情况,测了Lite Conv和正常卷积的情况,测了不同的AG处理特征融合的形式。其中如果是将Lite Conv换为正常卷积的话Rank 1会提高0.4个点,但是为了节省网络空间所以没有换。

网络的宽度乘数β(控制网络在采样图片过程中各个阶段feature的channel数)与分辨率乘数γ(控制网络在采样图片过程中各个阶段feature的size)的分离试验如下:

根据AG输出向量的堆叠向量,进行聚类,输出top15相似度的示例可视化:

注意力热图的可视化对比,从左到右依次为原图,OSNet(多尺度采样)输出的attention map,和table 5中model 9(单一尺度采样)的attention map:

在这个例子中,可以看到model 9只注意到了脸部,作者提出这是非常不可靠的,毕竟ReID数据的人脸经常是低分辨率的糊脸,更何况有些人也没拍到脸。作者认为这也可以证明OSNet能够关注更细微的差别。

在行人属性识别数据集PA-100K测的结果:

在CIFAR10/100上测的结果

在CIFAR10/100上测的分离试验

在ImageNet上测的结果:相比于其他轻量级网络,OSNet表现更佳

文章提出使用IN归一化替代BN,可以提高泛化能力,改动后名为OSNet-IBN,并且补了cross-domain的实验:

作者提出经过一点点修改OSNet-IBN可以成为cross-domain一个强有力的backbone。

非常好的一点是,作者还公布了他们曾经尝试过的各种各样的实验配置,并且放出了这些配置的实验结果:

目前看来Triplet的联合训练,和DML+model ensemble的方案还能提点。其他tricks影响不大。

写作

写作亮点不多的文章就不单独拿出来说了,本文写作很棒,特点是论点不多但挖的很深,思路清晰且逻辑可靠。就正如Introduction所说的:“The contributions of this work are thus both the concept of omni-scale feature learning and an effective and efficient implementation of it in OSNet.”。简单直接,那么写作也就死死的扣住这两个点进行展开。

Introduction-第二段句2

“We argue that such features need to be of omni-scale, defined as the combination of variable homogeneous scales and heterogeneous scales, each of which is composed of a mixture of multiple scales.”

写的非常好。

Introduction-第三段句3

“However, most of the CNNs adopted, such as ResNet [12], were originally designed for object category-level recognition tasks that are fundamentally different from the instance-level recognition task in ReID.”

这个洞见非常的好,整个人都兴奋了,跟Abstract呼应句首并拓展,随后引出本文的工作OSNet。

Introduction-最后一段

“…another
key design principle adopted in OSNet is to design a lightweight network. This brings a couple of benefits:…(2) In a large-scale surveillance application (e.g. city-wide surveillance using thousands of cameras), the most practical way for ReID is to perform feature extraction at the camera end. Instead of sending the raw videos to a central server, only features need to be sent. For on-device processing, small ReID networks are clearly preferred.”

很多文章提出的模型也说自己lightweight,但是仅仅是说轻便高效就完了,不展开讲更多的意义在哪?本文讲的OSNet同样是lightweight,给我们以非常好的示范,而且也非常有意义,可见其功力。

问题

还记得分离实验的时候测了T为不同值得情况,最高测到了文章采用的T=4,那么为啥不测T=5及以上呢?

我自己跑了一下OSNet_x1_0,如果跟平时的ResNet50求ID loss一个配置,OSNet的效果还不如ResNet50。跑了文章给的配置,训练时间是ResNet50的6倍左右,时间太长了,虽然网络是很轻,但是感觉是拿(大量的)时间换性能。

参考文献

[1] Zhou K, Yang Y, Cavallaro A, et al. Omni-scale feature learning for person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 3702-3712.

[2] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.

Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锥栗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值