Graph Correspondence Transfer for Person Re-Identification论文笔记

摘要

提出了GCT(图关系迁移)模型解决行人重识别问题,与现存的方法不一样,GCT将行人重识别视为一个离线的图匹配问题和一个在线的关系迁移问题。在训练过程中,通过patch级别的图匹配,在具有不同姿势对配置的正样本对中离线的学习得到一个关系模版集合。测试过程中,对于每一对测试样本,选择几对姿势对配置最相似的训练样本对作为参考样本,将这些参考样本的关系迁移到测试样本中以计算特征距离。将该测试样本对与所有参考样本对的特征聚合得到最终的匹配score值。与现有的方法对比,GCT采用了patch级别的图匹配,可以较好的解决由于拍摄视角变化和行人动作变化造成的空间上对不准的问题。

Motivation

对于行人重识别任务,一个最主要的挑战就是由于拍摄视角和行人动作多样的变化造成的图片对之间空间上对不准的问题。大部分现在的方法主要关注的是通过比较图片之间整体的差异解决行人重识别问题,但这些方法忽略了空间上对不准的问题。为解决这个问题,许多工作采用基于局部的方法,这些工作将任务划分成局部的小块,然后进行patch级别的匹配。这些方法在一定程度上解决了空间上对不准的问题,但是由于缺乏空间和视觉语义的上下文信息,在视觉上相似的身体外观或者有遮挡的情况下,这些方法仍然会失败。

本文提出通过图匹配,为正训练样本对学习patch级别的匹配模版,然后将这些patch级别的关系迁移到具有相同pose pair configurations的测试样本对中。在图匹配的过程中,空间上下文信息和视觉上下文信息都利用到了。

Method

GCT方法一共包含三个部分:训练阶段通过patch级别的图匹配学习正样本对之间的关系、通过动作对配置比较选择参考模版、基于关系迁移的patch级别的特征距离计算和聚合。
在这里插入图片描述

  1. Patch-wise correspondence learning with graph matching

    首先、将图片分解成许多可重叠的patches,然后将每一张图片编码成一个无向的属性图 G = ( V , E , A V ) G=(V,E,A^V) G=(V,E,AV),每个顶点 v i v_i vi表示图片中的一个分快,每条边编码了连接着的顶点对之间的上下文信息。 A V = { A V P , A V F } A^V=\left\{A^{V_P},A^{V_F}\right\} AV={AVP,AVF}是顶点的属性,代表局部分快的空间和视觉特征。

    在训练阶段,给定一个正样本对 I 1 和 I 2 I_1和 I_2 I1I2具有相同的标签 l 1 = l 2 l_1=l_2 l1=l2,代表同一个人,他们可以分别表示成 G 1 = ( V 1 , E 1 , A 1 V ) 和 G 2 = ( V 2 , E 2 , A 2 V ) G_1=(V_1,E_1,A_1^V)和G_2=(V_2,E_2,A_2^V) G1=(V1,E1,A1V)G2=(V2,E2,A2V)。patch级别的关系学习的目的是建立 V 1 V_1 V1顶点集合和 V 2 V_2 V2定点集合的联系 X ∈ { 0 , 1 } n 1 × n 2 X \in \left\{0,1\right\}^{n_1\times n_2} X{0,1}n1×n2,建立无权图,使得在训练集中同一个人的相似度尽可能的大。 X i a X_{ia} Xia代表 I 1 I_1 I1中的第 i i i个图像块和 I 2 I_2 I2中的第 a a a个图像块语义上是有联系的。数学意义上,Patch-wise correspondence learning可以表示成一个整数二次规划。
    arg ⁡ max ⁡ x x T K x s . t . { X i a ∈ { 0 , 1 } , ∀ i ∈ { 1 , ⋯   , n 1 } , ∀ a ∈ { 1 , ⋯   , n 2 } ∑ i X i a ≤ 1 , ∀ a ∈ { 1 , ⋯   , n 2 } ∑ a X i a ≤ 1 , ∀ i ∈ { 1 , ⋯   , n 1 } \arg\max_x \quad x^TKx \\ s.t. \quad \begin{cases} \quad X_{ia} \in \left\{0,1\right\}, \forall i \in \left\{1,\cdots,n_1\right\},\forall a \in \left\{1,\cdots,n_2\right\} \\ \sum_{i}X_{ia} \leq 1,\forall a \in \left\{1,\cdots,n_2\right\} \\ \sum_aX_{ia} \leq 1 ,\forall i \in \left\{1,\cdots,n_1\right\}\\ \end{cases} argxmaxxTKxs.t.Xia{0,1},i{1,,n1},a{1,,n2}iXia1,a{1,,n2}aXia1,i{1,,n1}
    其中 x = v e c ( X ) x=vec(X) x=vec(X),即为矩阵 X X X的向量化表示,其维度为 n 1 n 2 × 1 n_1n_2\times 1 n1n2×1, K ∈ R n 1 n 2 × n 1 n 2 K\in \mathbb{R}^{n_1n_2\times n_1n_2} KRn1n2×n1n2代表矩阵 G 1 G_1 G1和矩阵 G 2 G_2 G2的亲和度矩阵,编码了两个图的顶点和边之间的关系相似度。

    亲和力矩阵的设计

    由于人体动作和拍摄视角的变化造成的人体形态之间的巨大差异,采用传统的基于人体轮廓设计的亲和力矩阵是不适合的。考虑到Re-ID中视觉外观的重要性,将人体的空间轮廓和视觉特征共同考虑去构造亲和力矩阵。

    详细来说, K K K矩阵的对角线元素 K i a , i a K^{ia,ia} Kia,ia按如下方式计算得到
    K i a , i a = S i a P ⋅ S i a F K^{ia,ia}=S_{ia}^P \cdot S_{ia}^F Kia,ia=SiaPSiaF
    其中, S i a P S_{ia}^P SiaP S i a F S_{ia}^F SiaF分别是顶点 V i V_i Vi和顶点 V a V_a Va之间的空间位置相似度以及视觉特征相似度。计算方式如下:

    S i a P = exp ⁡ ( − ∥ A i V P − A a V P ∥ 2 ) \quad S_{ia}^P=\exp(-{\|A_i^{V_P}-A_a^{V_P}\|}_2) SiaP=exp(AiVPAaVP2)

    S i a F = exp ⁡ ( − ∥ A i V F − A a V F ∥ 2 ) \quad S_{ia}^F=\exp(-{\|A_i^{V_F}-A_a^{V_F}\|}_2) SiaF=exp(AiVFAaVF2)

    其中 A i V P A_{i}^{V_P} AiVP A a V P A_a^{V_P} AaVP分别表示 V i V_i Vi V a V_a Va的空间位置, A i V F A_i^{V_F} AiVF A a V F A_a^{V_F} AaVF分别表示 v i v_i vi v a v_a va的视觉特征。

    相似的,矩阵 K K K中的非对角线元素 K i a , j b K^{ia,jb} Kia,jb编码着两条边 e i j e_{ij} eij其中 v i ∈ V 1 , v 2 ∈ V 1 v_i\in V_1,v_2 \in V_1 viV1,v2V1 e a b e_{ab} eab,其中 v a ∈ V 2 , v b ∈ V 2 v_a \in V_2,v_b \in V_2 vaV2,vbV2之间的相容性(compatibility),计算方式如下:
    K i a , i b = S i j , b P ⋅ S i j , a b F K^{ia,ib}=S_{ij,b}^P \cdot S_{ij,ab}^F Kia,ib=Sij,bPSij,abF
    其中 S i j , a b P S_{ij,ab}^P Sij,abP S i j , a b F S_{ij,ab}^F Sij,abF分别表示边 e i j e_{ij} eij e a b e_{ab} eab之间的空间位置相容性以及视觉特征相容性。计算方式如下:
    S i j , a b P = exp ⁡ ( − ∥ ( A i V P − A j V P ) − ( A a V p − A b V P ) ∥ 2 ) , S i j , a b F = exp ⁡ ( − ∥ ( A i V F − A j V F ) − ( A a V F − A b V F ) ∥ 2 ) , S_{ij,ab}^P=\exp(-{\|(A_i^{V_P}-A_j^{V_P})-(A_a^{V_p}-A_b^{V_P})\|}_2), \\ S_{ij,ab}^F=\exp(-{\|(A_i^{V_F}-A_j^{V_F})-(A_a^{V_F}-A_b^{V_F})\|}_2), Sij,abP=exp((AiVPAjVP)(AaVpAbVP)2),Sij,abF=exp((AiVFAjVF)(AaVFAbVF)2),
    通过这种方式计算得到的亲和力矩阵 K K K在图匹配过程中隐式地嵌入了空间位置和视觉特征的上下文信息,使得匹配的顶点和边会有更大的相似度,并且在空间位置和视觉特征上会更加具有相容性。

    离群点的删除

    因为存在空间位置上对不准的问题,在一个视角上的图像块,可能在另一个视角并不存在。如下图的情况

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gQ0DIPoy-1612445510209)(/Users/reallsplee/Library/Application Support/typora-user-images/image-20210204161745106.png)]

    因此,进行patch之间一对一的匹配将带来大量的噪声,影响性能。因此,只建立正样本图片对之间同时出现的部分之间的联系是更加合理的。所以在原来的公式基础上,添加了一个正则项。能够使probe图片中在空间位置和视觉特征上有更高相似度的patches被激活,同时在图像对中不同时出现的patches被擦除。所以目标函数可改写为:
    arg ⁡ max ⁡ x x T K x − λ ∥ x ∥ 2 2 , s . t . { X i a ∈ { 0 , 1 } , ∀ i ∈ { 1 , ⋯   , n 1 } , ∀ a ∈ { 1 , ⋯   , n 2 } , ∑ i X i a ≤ 1 , ∀ a ∈ { 1 , ⋯   , n 2 } , ∑ a X i a ≤ 1 , ∀ i ∈ { 1 , ⋯   , n 1 } \arg\max_x \quad x^TKx-\lambda {\|x\|}_2^2 ,\\ s.t. \quad \begin{cases} \quad X_{ia} \in \left\{0,1\right\}, \forall i \in \left\{1,\cdots,n_1\right\},\forall a \in \left\{1,\cdots,n_2\right\} ,\\ \sum_{i}X_{ia} \leq 1,\forall a \in \left\{1,\cdots,n_2\right\} ,\\ \sum_aX_{ia} \leq 1 ,\forall i \in \left\{1,\cdots,n_1\right\}\\ \end{cases} argxmaxxTKxλx22,s.t.Xia{0,1},i{1,,n1},a{1,,n2},iXia1,a{1,,n2},aXia1,i{1,,n1}
    其中 λ \lambda λ是一个权衡因子,用来控制一个新的probe顶点被激活的难度。更大的 λ \lambda λ意味着需要更大的相似度来激活一个新的patch顶点。

  2. Reference selection via pose-pair configuration comparison

    学习到的Patch-wise联系可以迁移到测试集中具有相似姿态对配置的图像对中,并且这些迁移得到的联系可以直接应用来计算probe和gallery图片对之间的相似度。因此,对于test set中的每个图像对,我们需要找到训练集中的最佳参考模版。由于姿态配置跟身体的朝向紧密相关,可以通过比较不同姿态对之间的身体朝向来计算相似度。

    提出了采用简单有效的随机森林方法,比较不同身体朝向。根据身体朝向,行人图片可以分为8种,分别是:左,右,前,后,左前,右前,左后,右后。如下图所示。

    为了训练随机森林模型,每个图片被表征成多层次的HoG(梯度直方图)特征,cell size分别设置成 8 × 8 , 16 × 16 , 32 × 32 8\times 8,16\times 16,32\times 32 8×8,16×16,32×32,然后把他们分别放入决策树中从而构建随机森林。当随机森林 M = { t r e e 1 , t r e e 2 , ⋯   , t r e e T } M=\left\{tree_1,tree_2,\cdots,tree_T\right\} M={tree1,tree2,,treeT}被构建完成时,身体朝向的相似度可通过如下公式计算得到:
    O ( I i , I j ) = 1 T ∑ t = 1 T y i j t , O(I_i,I_j)=\frac{1}{T}\sum_{t=1}^Ty_{ij}^t, O(Ii,Ij)=T1t=1Tyijt,
    其中 y i j t y_{ij}^t yijt是一个指示函数, y i j t = 1 y_{ij}^t=1 yijt=1表示 I i I_i Ii I j I_j Ij在决策树 t r e e t ∈ M tree_t\in M treetM中落到同一个终端节点,反之 y i j t = 0 y_{ij}^t=0 yijt=0

    对于给定的两个图像对 P = ( I p , I g ) P=(I_p,I_g) P=(Ip,Ig) P ′ = ( I p ′ , I q ′ ) P^{\prime}=(I_p^{\prime} ,I_q^{\prime}) P=(Ip,Iq),他们的姿态对配置相似度 S ( P , P ′ ) S(P,P^{\prime}) S(P,P)可通过如下公式计算得到:
    KaTeX parse error: Undefined control sequence: \cdotO at position 37: …p,I_p^{\prime})\̲c̲d̲o̲t̲O̲(I_g,I_g^{\prim…
    通过上式计算得到测试图片对和训练集中的正样本图片对的姿态相似度,然后选择具有最高相似度的 R R R个训练图片对作为该测试图片对的最佳参考模版对。如下图所示。

    在这里插入图片描述

  3. Distance calculation and aggregation with correspondence transfer

    对于测试集上的每一个图片对,由于姿态对配置相似的图像对倾向于有patch级别的联系,提出将选中的参考模版图像对的匹配结果进行迁移以计算给定测试图片对的patch-wise 特征距离。具体计算方法如下。

    对于一个测试图片对 P ˉ = ( I ˉ p , I ˉ g ) \bar{P}=(\bar I_p,\bar I_g) Pˉ=(Iˉp,Iˉg),其中 I ˉ p \bar I_p Iˉp表示probe图片, I ˉ g \bar I_g Iˉg表示gallery图片。 τ = { T i } i = 1 R \tau=\left\{T_i\right\}_{i=1}^R τ={Ti}i=1R表示选中的R个模版构成的集合。对于每个选中的模版 T i = { c i j } j = 1 Q i T_i=\left\{c_{ij}\right\}_{j=1}^{Q_i} Ti={cij}j=1Qi,包含 Q i Q_i Qi个patch-wise联系,同时每一个patch-wise联系 c i j = ( w i j p , w i j g ) c_{ij}=(w_{ij}^p,w_{ij}^g) cij=(wijp,wijg)表示probe和gallery中匹配的局部patch的位置。

    对于一个测试图片对 P ˉ \bar P Pˉ,可通过如下方法计算两张图片的特征距离 D D D.
    D ( I ˉ p , I ˉ g ) = ∑ i = 1 R ∑ j = 1 Q i δ ( f p w i j p , f g w i j g ) D(\bar I_p,\bar I_g)=\sum_{i=1}^R\sum_{j=1}^{Q_i}\delta(f_p^{w_{ij}^p},f_g^{w_{ij}^g}) D(Iˉp,Iˉg)=i=1Rj=1Qiδ(fpwijp,fgwijg)
    其中 δ ( ⋅ , ⋅ ) \delta(\cdot,\cdot) δ(,)表示一种度量方式, f p w i j p f_p^{w_{ij}^p} fpwijp f g w i j g f_g^{w_{ij}^g} fgwijg分别表示位于probe图片 I ˉ p \bar I_p Iˉp w i j p w_{ij}^p wijp位置和gallery图片 I ˉ g \bar I_g Iˉg w i j g w_{ij}^g wijg位置的特征。最终采用Local Maximal Occurence feature来表示每张图片。

    计算得到patch之间的特征距离之后,这些特征距离平等的聚合得到图片对的特征相似度。gallery中与probe距离最短的图片为重识别的结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值