这篇文章提出了一种Co-Segmentation Inspired Attention模块,用于专注于视频中的人像主体,忽略背景信息的干扰。本质上这是一篇将non-local模块,或是temporal self-attention机制应用于video-reid的文章,但相较于其他应用non-local在video-reid的文章来说,它的分析较为详尽。
Motivation
Video Re-id需要专注于图像主体,即人体及其背包等关联物,而忽略背景信息的干扰。达成这一目的目前有多种方法,人像姿态估计、分割。但这两种方法代价过高,且会只捕捉人体部分,而忽略人体关联物,如包等。
另一种方法是采用attention来关注画面主体,但fram-wise的attention没有充分利用丰富的时空信息,所以这个attention是次优的。
因此作者提出借鉴co-segmentation的思路,提取帧间共享attention。
Co-segmentation
Obeject co-seg