【ReID】【Skimming】Building Computationally Efficient and Well-Generalizing Person Re-Identification
2020年新挂在arxiv的文章Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning。
文章主要研究了ReID跨域识别的问题,在一个数据集上训练的模型,在另外一个数据集上的表现会好吗?一般是不会好的。实际系统中ReID数据采集时空跨度比较大,或者场景跨度比较大,而已经训练的数据集比较有限,不能够涵盖这么多场景的时候,跨域问题就必然是要面对的,或者说跨域识别是可以研究突破的一个角度。
文章针对这些问题,使用了OSNet和AM-Softmax,结合一些训练的tricks和结构调整,在跨域的泛化问题上取得了新的SOTA。
论文一览:
痛点
跨域识别难度较大的原因,作者认为主要有
1、可获得的数据集比较小。
2、ReID的固有问题,相比人脸数据,行人数据的辨别性比较差,两个衣服相同,形体相近的人,几乎很难不把他们认成一个人。
3、模型过于简单,没有“因地制宜”,更可能因为数据量过小而overfit。虽然有很多工作使用多种损失函数的方法,但并不高效。
文章的贡献点如下:
1、使用AM-softmax这种metric learning的方法提高行人重识别跨域的泛化能力。
2、使用一些训练tricks和重构过的OSNet来实现更轻量级的模型。
3、跨域设置下的ReID达到SOTA。
4、CPU来测试模型是否适合实际场景开发。
模型
假设图像经过CNN网络输出的高维向量为:
AM-Softmax[2]是基于角度度量相似性的loss,首次提出是用于人脸识别,如下:
其中
为经过L2正则化后的f。
其中
为经过L2正则化的FC层权重。m和s是衡量id loss类和特征数的margin,这个非零margin m可以迫使loss中的f更靠近W,同时也能在不同类之间引入margin,使得到的f更有辨别力。s则是控制f和W的相似性的度量,以生成更敏锐的分布p。如果s值比较高,则f和W之间的相似度稍微更大。
基于AM-softmax 的id loss定义如下:
p就是刚刚的p,正则化参数α设为0.3。
除了AM-softmax的改进,作者还将平常使用的CNN(ResNet50)替换成了OSNet[3],和ResNet类似,OSNet也有很多不同尺度的残差块,但同时OSNet使用的OSBlock更加轻量,且有理论上更加大的感受野,在浅层就能提供聚合和处理全局背景信息。
OSNet的基础块结构如下(来自[3]):
3x3 Lite Conv模块如下图右(来自[3]):
OSNet改造过的bottleneck residual block如下右(来自[3]):
OSNet整体结构分布(来自[3]):
文章基于OSNet还做了一些细微的调整,
- OSNet使用全局平均池化操作将空间要素聚合为向量,文章用全局深度卷积代替它。
- 作者还使用了时髦的InstanceNorms[4]替代BatchNorms,可以减少颜色分布偏移。
- 由于AM-Softmax为f构建的超平面不仅有正值还可以有负值,希望保留这一部分作者还是用了PReLU替代了OSNet中的ReLU。
- 此外最后输出层弃用原OSNet的512维,改成了256维,以配合AM-Softmax。同时也有更快的计算速度。
调整后的OSNet记为OSNet-IAP。
实验
实验用了很多的数据增强方法如随机颜色转换(在HSV空间中抖动,转换为灰度),空间变形(随机旋转,水平翻转,填充)和图像失真(随机图形和网格的随机擦除图)。另外OSNet在ImageNet上预训练过。因为实验主要是在MSMT17上训练后再迁移到其他target domain,为了防止过拟合,文章在每个conv block后面使用了Gaussian Continuous Dropout layers。OSNet有一个手动调整的超参数,宽度乘数β,
这宽度乘数β对OSNet的表现影响如下:
实验可视化的注意力热图如下:
实验可视化top10的检索结果如下,target domain为DukeMTMC-ReID,模型在MSMT-all上训练过,绿框框为正确的结果,红框框为错误的结果,总体来说AM-softmax正确数要更多:
MSMT17数据集的id和数量分布如下,说明MSMT17数据集也有明显的长尾效应:
对宽度乘数β和source domain的分离试验:
跨域的SOTA对比:
单域SOTA对比(MSMT17):
对所用的各种数据增强方法及AM-softmax兼容性的分离试验:
对应于来自不同数据集的200个随机抽取的标识的重心之间的平均对数余弦距离。
对不同配置模型参数的对比:
问题
主要是很多工作的堆积,作者将AM-softmax引入,将OSNet引入,进行了一点修改。
实验比较单一,最好能有更多source 和target domain的数据集组合。
没有单域实验的结果,有单域的实验结果(MSMT17)也比较一般,没有SOTA,也不够competitive,原版OSNet在MSMT17测的rank-1有78.7,文章测的OSNet-IAP 1.0x还掉到77.97,很难说没有问题。cross domain ReID应该在保证single domain识别率的基础上再cross domain,不然本末倒置。
参考文献
[1] Sovrasov V, Sidnev D. Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning[J]. arXiv preprint arXiv:2003.07618, 2020.
[2] F. Wang, J. Cheng, W. Liu, and H. Liu, “Additive margin softmax for face verification,” IEEE Signal Processing Letters, vol. 25, pp. 926–930, 2018.
[3] Zhou K, Yang Y, Cavallaro A, et al. Omni-scale feature learning for person re-identification[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 3702-3712.
[4] Jia J, Ruan Q, Hospedales T M. Frustratingly easy person re-identification: Generalizing person re-id in practice[J]. arXiv preprint arXiv:1905.03422, 2019.