【ReID】【Skimming】Building Computationally Efficient and Well-Generalizing Person Re-Identification

【ReID】【Skimming】Building Computationally Efficient and Well-Generalizing Person Re-Identification

2020年新挂在arxiv的文章Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning。

文章主要研究了ReID跨域识别的问题,在一个数据集上训练的模型,在另外一个数据集上的表现会好吗?一般是不会好的。实际系统中ReID数据采集时空跨度比较大,或者场景跨度比较大,而已经训练的数据集比较有限,不能够涵盖这么多场景的时候,跨域问题就必然是要面对的,或者说跨域识别是可以研究突破的一个角度。

文章针对这些问题,使用了OSNet和AM-Softmax,结合一些训练的tricks和结构调整,在跨域的泛化问题上取得了新的SOTA。

论文一览:
image.png

痛点

跨域识别难度较大的原因,作者认为主要有
1、可获得的数据集比较小。
2、ReID的固有问题,相比人脸数据,行人数据的辨别性比较差,两个衣服相同,形体相近的人,几乎很难不把他们认成一个人。
3、模型过于简单,没有“因地制宜”,更可能因为数据量过小而overfit。虽然有很多工作使用多种损失函数的方法,但并不高效。

文章的贡献点如下:
1、使用AM-softmax这种metric learning的方法提高行人重识别跨域的泛化能力。
2、使用一些训练tricks和重构过的OSNet来实现更轻量级的模型。
3、跨域设置下的ReID达到SOTA。
4、CPU来测试模型是否适合实际场景开发。

模型

假设图像经过CNN网络输出的高维向量为:

AM-Softmax[2]是基于角度度量相似性的loss,首次提出是用于人脸识别,如下:

其中
为经过L2正则化后的f。
其中
为经过L2正则化的FC层权重。m和s是衡量id loss类和特征数的margin,这个非零margin m可以迫使loss中的f更靠近W,同时也能在不同类之间引入margin,使得到的f更有辨别力。s则是控制f和W的相似性的度量,以生成更敏锐的分布p。如果s值比较高,则f和W之间的相似度稍微更大。

基于AM-softmax 的id loss定义如下:

p就是刚刚的p,正则化参数α设为0.3。

除了AM-softmax的改进,作者还将平常使用的CNN(ResNet50)替换成了OSNet[3],和ResNet类似,OSNet也有很多不同尺度的残差块,但同时OSNet使用的OSBlock更加轻量,且有理论上更加大的感受野,在浅层就能提供聚合和处理全局背景信息。

OSNet的基础块结构如下(来自[3]):

3x3 Lite Conv模块如下图右(来自[3]):

OSNet改造过的bottleneck residual block如下右(来自[3]):

OSNet整体结构分布(来自[3]):

文章基于OSNet还做了一些细微的调整,

  1. OSNet使用全局平均池化操作将空间要素聚合为向量,文章用全局深度卷积代替它。
  2. 作者还使用了时髦的InstanceNorms[4]替代BatchNorms,可以减少颜色分布偏移。
  3. 由于AM-Softmax为f构建的超平面不仅有正值还可以有负值,希望保留这一部分作者还是用了PReLU替代了OSNet中的ReLU。
  4. 此外最后输出层弃用原OSNet的512维,改成了256维,以配合AM-Softmax。同时也有更快的计算速度。

调整后的OSNet记为OSNet-IAP。

实验

实验用了很多的数据增强方法如随机颜色转换(在HSV空间中抖动,转换为灰度),空间变形(随机旋转,水平翻转,填充)和图像失真(随机图形和网格的随机擦除图)。另外OSNet在ImageNet上预训练过。因为实验主要是在MSMT17上训练后再迁移到其他target domain,为了防止过拟合,文章在每个conv block后面使用了Gaussian Continuous Dropout layers。OSNet有一个手动调整的超参数,宽度乘数β,

这宽度乘数β对OSNet的表现影响如下:

实验可视化的注意力热图如下:

实验可视化top10的检索结果如下,target domain为DukeMTMC-ReID,模型在MSMT-all上训练过,绿框框为正确的结果,红框框为错误的结果,总体来说AM-softmax正确数要更多:

MSMT17数据集的id和数量分布如下,说明MSMT17数据集也有明显的长尾效应:

对宽度乘数β和source domain的分离试验:

跨域的SOTA对比:

单域SOTA对比(MSMT17):

对所用的各种数据增强方法及AM-softmax兼容性的分离试验:

对应于来自不同数据集的200个随机抽取的标识的重心之间的平均对数余弦距离。

对不同配置模型参数的对比:

问题

主要是很多工作的堆积,作者将AM-softmax引入,将OSNet引入,进行了一点修改。

实验比较单一,最好能有更多source 和target domain的数据集组合。

没有单域实验的结果,有单域的实验结果(MSMT17)也比较一般,没有SOTA,也不够competitive,原版OSNet在MSMT17测的rank-1有78.7,文章测的OSNet-IAP 1.0x还掉到77.97,很难说没有问题。cross domain ReID应该在保证single domain识别率的基础上再cross domain,不然本末倒置。

参考文献

[1] Sovrasov V, Sidnev D. Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning[J]. arXiv preprint arXiv:2003.07618, 2020.

[2] F. Wang, J. Cheng, W. Liu, and H. Liu, “Additive margin softmax for face verification,” IEEE Signal Processing Letters, vol. 25, pp. 926–930, 2018.

[3] Zhou K, Yang Y, Cavallaro A, et al. Omni-scale feature learning for person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 3702-3712.

[4] Jia J, Ruan Q, Hospedales T M. Frustratingly easy person re-identification: Generalizing person re-id in practice[J]. arXiv preprint arXiv:1905.03422, 2019.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锥栗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值