re匹配截至到第一个中文_视频Re-ID中的特征对齐与增强

477f67a75467e7f9dd078da4466e3100.png

前言

前段时间阅读了两篇与视频行人重识别(Re-ID)相关的文章,出自同一个实验室的,被ECCV2020接收。个人认为,虽然这两篇文章的理论出发点比较简单,但是建模实现过程和行文逻辑构建还是比较有趣的,值得一看。

一、Appearance-Preserving 3D Convolution for Video-based Person Re-identification(paper and code)

相对于静态图像行人Re-ID来说,视频Re-ID含有更丰富的表观和时间信息,也更有难度和挑战性。这篇论文提出一种基于外观信息保留的3D卷积,用于增强3D卷积在视频Re-ID中的作用,方法本质是表观特征对齐

作者提出Appearance-Preserving 3D convolution (AP3D)来解决表观特征不对齐的问题。AP3D的实现流程是,首先,扩充一倍输入特征图得到下面一条分支,然后分别采样每一帧的前、后帧得到上面一条分支,两条分支经Appearance-Preserving Module (APM)后生成与当前帧表观信息对齐的重建的前、后相邻帧,再将原始每一帧插入这些重建帧当中得到integrated feature maps,最后经过3×3×3的3D卷积获得输出。

f9f90d793b2a63a1f71757a4bb2a3a40.png

APM是实现对齐的一个关键模块,包含Feature Map RegistrationContrastive Attention两部分。

a3daa09bb75f463e2d71acc76dc9cf4b.png
  • Feature Map Registration

选定central feature map C 及其对应的adjacent feature map X,然后分别经1×1卷积、变形和归一化后通过softmax得到相似度矩阵,再与X 做矩阵乘法得到相似度响应图Y (相似特征响应高)。通过Feature Map Registration就可以让X C 的相似特征实现对齐。

  • Contrastive Attention

事实上,相邻两帧之间可能没有公共的body parts,此时Registration将不准确。为此,作者提出了Contrastive Attention来寻找Y C 不相似区域。并通过系列操作获得基于语义相似度的mask,再与Y 加权后用于抑制不匹配的body parts的特征表达,最后生成重建特征图Z

最后,作者探究了几种AP3D与现有3D卷积的结合方式,并用实验结果论证了AP3D在不同网络层所起的作用。

491460ba1ad0a758b9fe89818b0cc95e.png

19e7b63b75bcc6fb40512808ffe64dc8.png

小结

论文的基本思路比较简单,但作者的实现思路还是具有一定创新性的,通过重建的方式对齐行人公共表观特征。在论文写作上,也比较严谨,从问题的分析到数学模型的构建和参数的选择,都值得学习。

二、Temporal Complementary Learning for Video Person Re-Identification (paper and code)

如果有关注近几年的数据增强方法的话,就会发现random erase[1]是一个行之有效的提点操作。但一般的random erase是用在输入图像的,而这篇论文是在特征层面实施定向erase,提出一种用于视频Re-ID的时间互补学习的算法。

作者指出,现有大部分方法都没有充分利用行人视频中丰富的时空线索,主要是这些视频中有很多相似的帧,而现有方法在这些帧上执行相同/统一的特征提取操作,得到的冗余特征往往不具很高辨别性。

于是作者提出Temporal Complementary Learning Network (TCLNet),用于充分利用视频数据的时空信息。TCLNet包含两个关键部件,分别是Temporal Saliency ErasingTemporal Saliency Boosting

  • Temporal Saliency Erasing (TSE)

TSE的基本原理是利用系列对抗性的学习器在连续的视频帧中提取互为补充的特征。在TSE中,首先第一个学习器为视频序列的第一帧提取最显著的特征,然后在第二帧的特征图上,执行saliency erasing operation(SEO)利用时间线索来擦除对应第一个学习器的显著区域,再利用第二个学习器进一步探索新的显著特征。通过不断擦除所有先前帧的显著特征,这些学习器就可以挖掘出连续帧的互补显著区域,获得行人丰富的整体判别性特征。

9d459145a884b349852676676d675a80.png

SEO的输入是当前帧的特征图Fn 和之前帧的特征向量。首先,correlation layer根据两个输入,利用点积计算获得一系列的相关图Rn,然后通过Block Binarization Layer得到二值化的mask(Bn)用于标示需要擦除的区域。mask是使用滑块搜索相关图中最突出的连续区域得到的(详细操作可以参考原文)。注意,对于高响应区域,在mask中的值对应为0。最终,这些mask做逐像素相乘,与经过逐像素相乘和softmax的相关图逐像素相乘得到gate map Gn,再作用于Fn 获得擦除后的特征图。

886b8c17f717074c0056dda6b8d675ba.png
  • Temporal Saliency Boosting (TSB)

虽然TSE可以提取序列帧的互补的特征,但SEO可能会带来信息丢失的问题。为此,作者提出TSB用于增强最显著特征的表达能力。

a4791b694b9a8a6dbec36be07ed7dfeb.png

TSB仿照query-memory 注意力机制,将每一帧的特征视为query(Q ),将所有帧的特征视为memory(M ),然后通过变形、点积、softmax和求和等系列操作,增强Q 的表达能力。通过这种query-memory匹配,质量不高的帧在TSB中会有较低的权重,在前向传播期间的表达被弱化。

作者以ResNet-50为backbone,为了减少计算量,所有学习器的前两个残差模块的参数共享。训练时是将一段视频分为若干小段,对每一小段提取特征,然后利用时域平均池化来生成最终的一个特征向量;测试时是提取整段视频的行人特征得到特征向量,用于计算ID相似度。

4f0d599285dd64e1be7fb91af6864dd9.png

实验的定量结果与上篇论文的差不多,一个直观的定性结果如下图(c)所示。

be3365af613197e78ddd329a895d9897.png

小结

这篇论文在特征层定向地实施erase操作,迫使学习器提取行人丰富且全面的显著性特征,有一定的新颖性和独到性。如果引入特征对齐的话,或许可以将SEO改造成增量式的,就不用一直考虑之前所有帧的特征向量了。

参考资料

[1] Zhong, Z.; Zheng, L.; Kang, G.; Li, S.; and Yang, Y. Random erasing data augmentation. arXiv preprint arXiv:1708.04896 (2017).

上述两种视频Re-ID方法都是离线的,目前单独研究在线的视频Re-ID的相关文章还比较少。要想充分发挥Re-ID在在线多目标跟踪(MOT)的作用,设计与MOT场景相匹配的视频Re-ID模型还是很有必要的。

如有不足之处,欢迎批评指正!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值