分享人:中国矿业大学博士 陈莹
研究方向:计算机视觉 | 行人搜索
论文标题:Building Computationally Efficient and Well-Generalizing Person Re-Identification Models with Metric Learning(用度量学习建立计算效率高、通用性好的行人重识别模型)
论文来源:ICPR2020
论文下载:https://arxiv.org/abs/2003.07618
摘要:
这项工作考虑了行人重识别中域转移问题。在一个数据集上训练,行人重识别模型通常在看不见的数据上表现得更差。这种差距是由于行人重识别数据集规模相对较小(例如,与人脸识别数据集相比),但也与训练目标函数有关。因此作者建议使用度量学习目标,即AM Softmax损失,以及一些额外的训练实践来建立良好的泛化性和计算效率高的模型。作者使用最近提出的Omni-Scale网络(OSNet)架构,结合一些训练技巧和架构调整,在一个大型MSMT17数据集上获得跨域泛化问题的最好结果:MSMT17 all->DukeMTMC,MSMT17 train->Market1501和MSMT17 all->Market1501。
贡献:
- 作者总结了造成行人重识别模型域转移问题的原因:相对较小的可用数据集、行人重识别的本质问题(一个人的外表似乎不像他们的容貌那样有区别)和少量的训练数据导致训练模型ResNet50过拟合问题。因此,作者使用了OSNet架构中的AM Softmax loss来获得具有判别性能的特征,这些特征允许获得快速的跨域网络,并很好地推广到不可见的数据。作者关注于损失函数、模型结构和训练过程的细节(扩充、调度、数据采样),以建立更好的跨域模型。
学习身份保持映射函数目前主要有两种方法:使用身份分类损失作为全局规则或使用局部规则三元损失。针对跨域问题,作者认为应该有一个更强大、更结构化的监督方法来控制。而angular margin-based losses(SphereFace,AM-Softmax,ArcFace)可以实现。作者使用AM-Softmax,因为它提供了所需的属性并且比SphereFace或ArcFace更容易优化,即使在有噪声的数据上也是如此。AM-Softmax由以下公式定义:
(1-1)
(1-2)
其中是映射的正则化输出,是将转换为logits空间的线性层的正则化权重,和是类和特征尺度之间的余量。Non-zero margin迫使损失不仅使向量在余弦距离上更接近原型,而且在不同类之间创建margin。这个过程使得映射具有区别性。尺度参数控制和之间的相似程度,以生成清晰的分布。较高的值对应这种情况:当和之间的相似性应该稍微比和之间的相似性大一点,来接近一个热分布。由于AM-Softmax loss为向量在high-dimensional hypersphere上定义了一个强大的global placement rule,因此需要稍微放宽以防止过度拟合。考虑到这一点,作者将基于AM-Softmax的身份损失定义为: (1-3)
1.2 模型体系结构作者使用OSNet作为CNN的基本架构,用于行人重识别任务。与Res2Net一样,它提供了一个多尺度的残差块,但同时,OSBlock是轻量级的。与标准残块相比,OSBlock具有更大的理论感受野。因此,它可以从浅层开始提供全局上下文的聚合和处理。这似乎是一个主要的促成因素,使得OSNet能够在没有任何复杂的训练技巧的情况下胜过许多基于ResNet-50的方法,这需要大约20亿的浮点运算,相同情况下ResNet-50需要53亿的浮点运算。
OSNet已经是一个很好的平衡架构,所以作者只做了一些小的调整:
- 默认情况下,OSNet使用全局平均池化操作将空间要素聚合到向量中。将其替换为全局深度卷积。它使我们能够更灵活地聚合最终的特征映射,因为在平均池化的情况下,每个通道和每个空间位置都有一个可学习的权重,而不是统一的权重。全局深度卷积也略微增加了轻量级模型的容量,而不会引入显著的开销。
- 已有研究表明,InstanceNorms可以提高跨域重识别的性能。按照这种做法,在第一个卷积之前和之后插入InstanceNorms(而不是BatchNorms),以减少颜色分布偏移。
AM-Softmax loss将规范化表示向量视为上的点。这些点可以有正负号坐标。为了让模型也能产生带有负成分的输出向量,在原有的OSNet中加入PReLU激活层而不是ReLU。还使用了256维的输出层,而原始的OSNet附带了512维的输出层。AM-Softmax比Softmax生成更多的结构化表示,因此可以学习到一个紧凑的嵌入空间。另外,低维嵌入导致更快的距离计算、平均和对提取的嵌入执行的任何其他操作。作者将修改后的OSNet架构称为OSNet-IAP。
2. 实验结果数据集和跨域训练问题:对于训练和评估,使用了3个最大的公开数据集:MSMT17、Market1501和DukeMTMC-ReID。数据集的统计如表一所示。
表1作者评估了OSNet-IAP在数据和模型大小维度上的可伸缩性(见表2)
表2
近年来,跨域方法在zeros-hot迁移方面取得了令人瞩目的进展。ADFL将注意力机制引入ResNet-50,并在Market1501和DukeMTMC-ReID上仅使用MSMT17-train作为源数据,取得了很好的效果。即使如此,OSNETIAP 1.0x在MSMT17-train-> Market1501上的表现也略胜于它(见表3)。
表3
排版编辑:侯浩鹏综合策划:何 欣