【ReID】【Skimming】Building Computationally Efficient and Well-Generalizing Person Re-Identification

锥栗

已于 2023-02-27 18:43:38 修改

阅读量1.3k

点赞数

分类专栏： ReID 文章标签：机器学习人工智能计算机视觉深度学习神经网络

于 2020-03-28 10:04:48 首次发布

本文链接：https://blog.csdn.net/fisherish/article/details/105115272

版权

ReID 专栏收录该内容

42 篇文章 24 订阅

订阅专栏

【ReID】【Skimming】Building Computationally Efficient and Well-Generalizing Person Re-Identification

2020年新挂在arxiv的文章Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning。

文章主要研究了ReID跨域识别的问题，在一个数据集上训练的模型，在另外一个数据集上的表现会好吗？一般是不会好的。实际系统中ReID数据采集时空跨度比较大，或者场景跨度比较大，而已经训练的数据集比较有限，不能够涵盖这么多场景的时候，跨域问题就必然是要面对的，或者说跨域识别是可以研究突破的一个角度。

文章针对这些问题，使用了OSNet和AM-Softmax，结合一些训练的tricks和结构调整，在跨域的泛化问题上取得了新的SOTA。

论文一览：

痛点

跨域识别难度较大的原因，作者认为主要有
1、可获得的数据集比较小。
2、ReID的固有问题，相比人脸数据，行人数据的辨别性比较差，两个衣服相同，形体相近的人，几乎很难不把他们认成一个人。
3、模型过于简单，没有“因地制宜”，更可能因为数据量过小而overfit。虽然有很多工作使用多种损失函数的方法，但并不高效。

文章的贡献点如下：
1、使用AM-softmax这种metric learning的方法提高行人重识别跨域的泛化能力。
2、使用一些训练tricks和重构过的OSNet来实现更轻量级的模型。
3、跨域设置下的ReID达到SOTA。
4、CPU来测试模型是否适合实际场景开发。

模型

假设图像经过CNN网络输出的高维向量为：

AM-Softmax[2]是基于角度度量相似性的loss，首次提出是用于人脸识别，如下：

其中
为经过L2正则化后的f。
其中
为经过L2正则化的FC层权重。m和s是衡量id loss类和特征数的margin，这个非零margin m可以迫使loss中的f更靠近W，同时也能在不同类之间引入margin，使得到的f更有辨别力。s则是控制f和W的相似性的度量，以生成更敏锐的分布p。如果s值比较高，则f和W之间的相似度稍微更大。

基于AM-softmax 的id loss定义如下：

p就是刚刚的p，正则化参数α设为0.3。

除了AM-softmax的改进，作者还将平常使用的CNN（ResNet50）替换成了OSNet[3]，和ResNet类似，OSNet也有很多不同尺度的残差块，但同时OSNet使用的OSBlock更加轻量，且有理论上更加大的感受野，在浅层就能提供聚合和处理全局背景信息。

OSNet的基础块结构如下（来自[3]）：

3x3 Lite Conv模块如下图右（来自[3]）：

OSNet改造过的bottleneck residual block如下右（来自[3]）：

OSNet整体结构分布（来自[3]）：

文章基于OSNet还做了一些细微的调整，

OSNet使用全局平均池化操作将空间要素聚合为向量，文章用全局深度卷积代替它。
作者还使用了时髦的InstanceNorms[4]替代BatchNorms，可以减少颜色分布偏移。
由于AM-Softmax为f构建的超平面不仅有正值还可以有负值，希望保留这一部分作者还是用了PReLU替代了OSNet中的ReLU。
此外最后输出层弃用原OSNet的512维，改成了256维，以配合AM-Softmax。同时也有更快的计算速度。

调整后的OSNet记为OSNet-IAP。

实验

实验用了很多的数据增强方法如随机颜色转换（在HSV空间中抖动，转换为灰度），空间变形（随机旋转，水平翻转，填充）和图像失真（随机图形和网格的随机擦除图）。另外OSNet在ImageNet上预训练过。因为实验主要是在MSMT17上训练后再迁移到其他target domain，为了防止过拟合，文章在每个conv block后面使用了Gaussian Continuous Dropout layers。OSNet有一个手动调整的超参数，宽度乘数β，

这宽度乘数β对OSNet的表现影响如下：

实验可视化的注意力热图如下：

实验可视化top10的检索结果如下，target domain为DukeMTMC-ReID，模型在MSMT-all上训练过，绿框框为正确的结果，红框框为错误的结果，总体来说AM-softmax正确数要更多：

MSMT17数据集的id和数量分布如下，说明MSMT17数据集也有明显的长尾效应：

对宽度乘数β和source domain的分离试验：

跨域的SOTA对比：

单域SOTA对比（MSMT17）：

对所用的各种数据增强方法及AM-softmax兼容性的分离试验：

对应于来自不同数据集的200个随机抽取的标识的重心之间的平均对数余弦距离。

对不同配置模型参数的对比：

问题

主要是很多工作的堆积，作者将AM-softmax引入，将OSNet引入，进行了一点修改。

实验比较单一，最好能有更多source 和target domain的数据集组合。

没有单域实验的结果，有单域的实验结果（MSMT17）也比较一般，没有SOTA，也不够competitive，原版OSNet在MSMT17测的rank-1有78.7，文章测的OSNet-IAP 1.0x还掉到77.97，很难说没有问题。cross domain ReID应该在保证single domain识别率的基础上再cross domain，不然本末倒置。

参考文献

[1] Sovrasov V, Sidnev D. Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning[J]. arXiv preprint arXiv:2003.07618, 2020.

[2] F. Wang, J. Cheng, W. Liu, and H. Liu, “Additive margin softmax for face verification,” IEEE Signal Processing Letters, vol. 25, pp. 926–930, 2018.

[3] Zhou K, Yang Y, Cavallaro A, et al. Omni-scale feature learning for person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 3702-3712.

[4] Jia J, Ruan Q, Hospedales T M. Frustratingly easy person re-identification: Generalizing person re-id in practice[J]. arXiv preprint arXiv:1905.03422, 2019.