Relation Network for Person Re-identification阅读笔记
What?
直接PCB太暴力了,没有考虑到块与块之间的关系。于是本文提出了一种one-vs-rest relational 策略考虑了块与块之间的关系。具体如下:
以
p
1
p_1
p1为例,上图
p
1
p_1
p1~
p
6
p_6
p6的获取方式和PCB完全一致,后面则略有不同。
这里将 p 2 p_2 p2~ p 6 p_6 p6的结果直接做 r 1 = ( p 2 + p 3 + p 4 + p 5 + p 6 ) / 5 r_1=(p_2+p_3+p_4+p_5+p_6)/5 r1=(p2+p3+p4+p5+p6)/5,然后 1 × 1 1 \times 1 1×1卷积变换通道得到 r ˉ 1 \bar r_1 rˉ1,同时 p 1 p_1 p1通过 1 × 1 1 \times 1 1×1卷积变换通道得到 p ˉ 1 \bar p_1 pˉ1,两者按channel做concat得到结果经过 1 × 1 1 \times 1 1×1卷积变换通道,所得结果与 p ˉ 1 \bar p_1 pˉ1做残差加法,得到最终结果 q 1 q_1 q1。然后就可以说 q 1 q_1 q1中包含了与 p 2 p_2 p2$p_6$有关的信息了,就考率了块与块之间的联系。其余同理,就可以得到$q_1$ q 6 q_6 q6。
公式表达如下:
其中T表示concat。
然后就是作者提了一个GCP,和以往有啥差别呢?下图直接对比:
详细描述:
GAP , GMP , GAP+GMP都用过,各有好处,也各有缺陷。
- GAP covers the whole body parts of the person image , but it is easily distracted by background clutter and occlusion.
- GMP overcomes this problem by aggregating the feature from the most discriminative part useful for reID while discarding background clutter. This, however, does not contain information from the whole body parts.(背景区域基本不利于分类,因此激活值一般很小,通过GMP就自然被drop掉了)`
- GAP +GMP may perform better, but it is also influenced by background clutter. It has been proven that GMP is more effective than GAP(Fu et al. 2019 SSG), which will be also verified once more in our experiment.
- Motivated by this, we propose a novel GCP method based on GMP to extract a global feature map from the whole body parts . 具体咋做,如下图:
做法应该很清楚,这里不再赘述。和GMP,GAP差别也很明显,GCP引入了要学习的参数。
讲到这里,其实很懵,GCP是什么?要GCP干啥的?
GCP指的是Global Contrastive Pool。由于我们之前考虑了块之间的关系,而Contrastive 体现在哪?就是表现在 p a v g − p m a x p_{avg} - p_{max} pavg−pmax。 avg中保留了整个图像的信息,max是行人部分的信息,那差是什么?就是背景部分的信息。而结果和max的行人信息再合并。那去掉又合并岂不是白做了?不是的,concat(合并)之前还有一个conv的存在,因此其实还是不一样的,并不是减去又加上的操作,而是关注了一些更关键的信息。最后同样用一个残差保证学习的结果不会比之前差。
因此,总体模型为:
损失就是softmax+triplet,不过分强调。
效果
效果相当不错,但训练细节不是很多。
其中: − S -S −S表示和PCB一样切6块,即 q P 6 q^{P_6} qP6。同理 q P 2 q^{P_2} qP2和 q P 4 q^{P_4} qP4分别是切2块和4块,将三个尺度的结果concat起来就是 T ( q P 2 , q P 4 , q P 6 T(q^{P_2},q^{P_4},q^{P_6} T(qP2,qP4,qP6,即 − F -F −F。
其他效果展示:
消融:上表的实验相当充足。而且这里按照作者的实验,GCP提点能力很强。
One-vs-rest中做concat的必要性: