A Coarse-to-fine Pyramidal Model for Person Re-identification via Multi-Loss Dynamic Training

https://arxiv.org/pdf/1810.12193v1.pdf

摘要:

大多数现有的重识别(Re-ID)方法高度依赖于精确的边界框,使图像彼此对齐。然而,由于不可避免的挑战场景,目前的检测模型往往输出不准确的边界框,这不可避免地降低了这些重新id算法的性能。我们提出了一种新的粗-细金字塔模型,该模型不仅融合了局部和全局信息,而且融合了它们之间的渐进线索。该金字塔模型能够匹配不同尺度的线索,并在图像对没有对齐的情况下搜索出相同身份的正确图像。此外,为了学习区分性身份表示,我们探索了一种动态训练方案来无缝地统一两个损失,并提取它们之间适当的共享信息。

1 简介

行人再识别(Re-ID)的目的是将同一个人在不同物理地点捕捉到的图像关联起来,促进基于视觉的智能零售和安全监控中使用的跨摄像头跟踪技术。一般认为,行人Re-ID是行人检测系统之后的下一个高级任务,因此Re-ID的基本假设是检测模型能够提供精确的、高度对齐的包围盒。尽管最近取得了很大的进展,但由于基于part的模型的潜在问题和训练的困难,现有方法的性能改进空间有限。
基于part的模型的缺点:众所周知,基于部分的模型通常可以在许多计算机视觉任务中实现有前途的性能,因为这些模型对一些不可避免的挑战,如遮挡和部分变化具有潜在的鲁棒性。事实上,这些挑战严重影响了行人Re-ID在现实应用中的表现。因此,最近提出的基于部分的卷积基线(PCB)可以达到最先进的结果。PCB简单但非常有效,甚至可以优于其他学习过的零件模型。然而,在PCB中,直接将骨干网的特征图划分为固定数量的part,严格限制了进一步提高性能的能力。它至少有两个主要缺点,但不限于:1)总体性能严重依赖于强大而鲁棒的行人检测模型输出精确的边界框,否则part无法很好地对齐。 但是,在大多数具有挑战性的场景中,当前的检测模型不足以做到这一点。2)该模型完全忽略了作为识别重要线索的全局信息,而全局特征通常对微妙的视图变化和内部变化具有鲁棒性。在Fg. 1中举例说明了不同尺度的部分对于匹配是同等重要的。
在这里插入图片描述
图1所示。当边界框未对齐或人体部分被遮挡时,不同尺度的基于部分的匹配示例。红色边框表示这两部分中的大多数线索是不同的。我们可以看到,在精细划分的情况下,少数水平条纹(左)由于不同的线索而不能很好地匹配,而这些条纹(右)在更全局的视角下有更多相似的线索。
多损失训练的困难:近年来的研究表明,多任务学习能够通过提取适当的任务间共享信息来实现更高的性能。在不丧失一般性的情况下,术语“损失”和“任务”将交替使用。
事实上,许多现有的Re-ID方法也受益于多损失方案,以提高性能。通常,大多数多任务方法选择使用在整个训练过程中固定的平衡参数来加权损失。1)性能高度依赖于一个合适的参数,而选择一个合适的参数无疑是一项劳动密集型和棘手的工作。2)随着模型的逐步更新,不同任务的难度实际上发生了变化,导致不同迭代的合适参数确实不同。3)更重要的是,由于考虑的特殊性,不同损失的抽样策略一般是不同的。例如,三元组损失的硬样本采样会抑制另一项识别损失任务的作用。

在这里插入图片描述
图2。我们提出的行人再识别金字塔模型的架构。为了更好的布局,只显示了原本是三维张量的金字塔中的成员分支的空间轮廓。我们假设将原feature map划分为6个基本的sub-maps,而其他数量的sub-maps也可以使用。分支总是由几个连续的基本子图组成,每个分支的基本操作将在图3中给出。
在这里插入图片描述
图3。说明由两个连续的基本子映射组成的分支的基本操作,包括一个全局最大池、一个全局平均池、一个卷积滤波器、一个批处理归一化、一个ReLu激活和一个线性全连接层。这些针对不同分支的操作将独立执行,最终将所有分支的特征串联起来,以实现三重组损失。

在这里插入图片描述

图4。用两种抽样策略对两个相关任务进行动态训练。

因此,直接对损失进行算术加权是非常简单的,但显然会给优化带来很多困难。
动态加权对于每一个损失,我们定义一个性能度量来估计损失减少的可能性。假设在这里插入图片描述为任务t∈{id, tp}在当前训练迭代τ中的平均损失。因此,我们可以计算在这里插入图片描述为指数移动平均,根据:在这里插入图片描述
其中α∈[0,1]是折现因子,在这里插入图片描述
基于在这里插入图片描述,我们定义一个概率来描述损失减少的可能性为:在这里插入图片描述
在损失偶尔增加的情况下,利用函数min对p t进行归一化等于1。很明显,p = 1表示当前的优化步骤还没有减少损失。该值越大,任务t优化进入局部极小值的概率越大。与聚焦损失类似,聚焦损失使较容易的样本下降,并集中在硬样本上,我们定义一个度量(F L(·))来衡量损失:在这里插入图片描述
其中γ是用来控制聚焦强度。F旨在权衡任务并选择要优化的期望损失。实际上,整体目标函数可以改写为:在这里插入图片描述
由于采样策略不同,当在这里插入图片描述主导这两个任务在这里插入图片描述时,我们随机选择小批量,对Eq. 2中的ID损失进行优化,因此,我们从简单地最小化ID损失开始我们的动态优化系统。实际上,由于每一步都可以大大减少ID损失,所以在这里插入图片描述在早期优化中总是占主导地位。此外,由于模型目前处于不成熟状态,所有的样本都是同样困难的,因此基于硬采样的三元组损失对我们的优化并没有起到至关重要的作用。这类似于自定进度(课程学习)方案[10],在该方案中,首先训练较简单的样本,然后考虑硬样本,而在此动态优化两个任务起着相同的作用。在这种情况下,目标方程式8中的两个损失在这里插入图片描述都将计算。当F L在优化中起主导作用时,总体目标方程式8考虑到两个方程式2和3将直接优化,因为ID平衡的硬三元组采样不会影响ID损失的使用。该优化成功地避免了复杂的平衡参数调整,并无缝地融合了id -平衡硬三组采样和课程学习的思想,进一步提高了性能。替代训练的流程图以Fg表示。并在算法1中给出了训练的详细信息。
在这里插入图片描述
而id -平衡硬三组采样则按照以下步骤进行:为了构建有效的三元组,我们对每个小批量随机选取8个身份,每个身份随机选取8个图像。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值