【文献阅读】Silhouette based View embeddings for Gait Recognit

Silhouette based View embeddings for Gait Recognition under Multiple Views

github: 有
分类: 步态

Link

GitHub - ctrasd/gait-view: The codes for the paper “Silhouette-based View-embeddings for Gait Recognition Under Multiple Views”

核心问题

跨视角

解决方案

在这里插入图片描述

3.1. View projection matrix selection

Backbone可以使用GaitSet、GaitPart、GaitGL、MT3D等方法

  1. 序列( X i n ∈ R T × H × W X_{in}\in \mathbb{R}^{T\times H\times W} XinRT×H×W) 经过Backbone网络(E)得到特征( X f ∈ R C f × H f × W f X_f\in \mathbb{R}^{C_f \times H_f\times W_f} XfRCf×Hf×Wf

  2. 第一分支:HPM 的结果是 f H P M ∈ R n × D f_{HPM}\in \mathbb{R}^{n\times D} fHPMRn×D

  3. 第二分支:polling操作 f v ∈ R D v f_v\in \mathbb{R}^{D_v} fvRDv

    1. projection matrices { W 1 , W 2 , … , W n } ( W i ∈ R D × D ) \lbrace W_1,W_2,\dots,W_n \rbrace(W_i \in \mathbb{R}^{D\times D}) {W1,W2,,Wn}(WiRD×D) are selected according to the predicted view, where n is the number of strips cut in the HPP Module [4].

    b. f v f_v fv classification feature

    X f = E ( X i n ) and f v = F ( P G l o b a l _ A v g ( X f ) ) X_f=E(X_{in}) \quad \text{and} \quad f_v=F(P_{Global\_Avg}(X_f)) Xf=E(Xin)andfv=F(PGlobal_Avg(Xf))

特别对于GaitSet,还有一个 X g X_g Xg可供使用,因此

f v = F ( P G l o b a l _ A v g ( [ X f ; X g ] ) ) f_v=F(P_{Global\_Avg}([X_f;X_g])) fv=F(PGlobal_Avg([Xf;Xg]))

F ( ) F() F() 表示全连接层 , P G l o b a l _ A v g P_{Global\_Avg} PGlobal_Avg 表示GAP操作

  1. predicted view probability p ^ ∈ R M \hat{p} \in \mathbb{R}^M p^RM and of the input gait silhouettes and the view of maximum probability y ^ \hat{y} y^ are calculated as:

    p ^ = W v i e w f v + B v i e w and y ^ = arg ⁡ max ⁡ i p i ^ \hat{p} = W_{view}f_v + B_{view} \quad \text{and} \quad \hat{y}=\mathop{\arg\max}\limits_{i} \hat{p_i} p^=Wviewfv+Bviewandy^=iargmaxpi^

    where M is the number of discrete views, W v i e w ∈ R M × D v W_{view} \in \mathbb{R}^{M\times D_v} WviewRM×Dv are weight matrices, B v i e w B_{view } Bview are the bias terms and y ^ ∈ { 0 , 1 , 2 , … , M } \hat{y}\in \lbrace0,1,2,\dots ,M\rbrace y^{0,1,2,,M}

    所以 p ^ \hat{p} p^ 相当于是由 f v f_v fv 经过一个全连接得出的, p ^ \hat{p} p^是一个 M M M的向量, M M M是view的个数, 所以 p ^ \hat{p} p^表示的是当前的 f v f_v fv 特征属于各个视角的概率, 而 y ^ \hat{y} y^ 则是最大的概率所对应的那个视角

  2. For predicted view y ^ \hat{y} y^ , a corresponding view projection matrix group Z y ^ ∣ { W i ∣ i = 1 , 2 , … , n } Z_{\hat{y}}|\lbrace W_i|i=1,2,\dots,n\rbrace Zy^{Wii=1,2,,n} will be trained where W i ∈ R D × D W_i\in \mathbb{R}^{D×D} WiRD×D is the projection matrix. And all the view projection matrix can be expressed as S = { Z i ∣ i = 1 , 2 , … , M } S = \lbrace Z_i|i=1,2,\dots,M\rbrace S={Zii=1,2,,M}

    对于一个 y ^ \hat{y} y^ 有对应的一个 Z y ^ Z_{\hat{y}} Zy^, 每个 Z y ^ Z_{\hat{y}} Zy^ 内有n个 W i ∈ R D × D W_i\in\mathbb{R}^{D\times D} WiRD×D 的权重矩阵.

    所有的权重矩阵构成 S S S集合, 即 S ∈ R M × n × D × D S\in \mathbb{R}^{M\times n \times D\times D} SRM×n×D×D(M 个视角,)

    Gengeration的是个啥东西他是如何将这个 p ^ \hat{p} p^ y ^ \hat{y} y^ 与对应y视角的下的矩阵联系起来的

3.2. HPP feature projection

  1. 此分支的输入为 f H P M ∈ R n × D f_{HPM} \in \mathbb{R}^{n\times D} fHPMRn×D , 第 i i i 个水平条表示为 f H P M , i i = 1 , 2 , … , n f_{HPM,i}\quad i=1,2,\dots,n fHPM,ii=1,2,,n

  2. 假定 输入轮廓序列的 y ^ \hat{y} y^被认定为 θ \theta θ , 预测特征可以表示为

    f f i n a l , i = W i f H P M , i f f i n a l = [ f f i n a l , 1 , f f i n a l , 2 , … , f f i n a l , n ] f_{final,i} = W_if_{HPM,i} \\ f_{final}=[f_{final,1},f_{final,2},\dots,f_{final,n}] ffinal,i=WifHPM,iffinal=[ffinal,1,ffinal,2,,ffinal,n]

    where i = 1 , 2 , … , n i=1,2,\dots ,n i=1,2,,n , W i ∈ Z θ W_i\in Z_{\theta} WiZθ 最终使用 f f i n a l f_{final} ffinal用作最终的特征衡量

3.3. Joint losses

损失函数

L c e = − ∑ j = 1 N ∑ i = 1 M y j l o g ( p j i ) w . r . t . p j i = e p ^ j i ∑ i = 1 M e p ^ j i \mathcal{L}_{ce}=-\sum^N_{j=1}\sum^M_{i=1}y_jlog(p_{ji}) \quad w.r.t.\quad p_{ji}=\frac{e^{\hat{p}_{ji}}}{\sum^M_{i=1}e^{\hat{p}_{ji}}} Lce=j=1Ni=1Myjlog(pji)w.r.t.pji=i=1Mep^jiep^ji

N N N 所有的步态序列, y j y_j yj是第j个序列的独立真值, ( Q , P , N ) (Q,P,N) (Q,P,N)表示三元组,其中Q,P来自同一对象,Q,N对应不同对象

Denote K K K triplets of fixed identity as { T i ∣ T i ( f f i n a l Q i , f f i n a l P i , f f i n a l N i , i = 1 , 2 , … , K ) \lbrace T_i|T_i(f^{Q_i}_{final},f^{P_i}_{final},f^{N_i}_{final},i=1,2,\dots,K) {TiTi(ffinalQi,ffinalPi,ffinalNi,i=1,2,,K), then combining the Equation (4), the triplet loss can be expressed as:

L t r i p = 1 K ∑ i = 1 K ∑ j = 1 n max ⁡ ( m − d i j − + d i j + , 0 ) \mathcal{L}_{trip}=\frac{1}{K}\sum^K_{i=1}\sum^n_{j=1}\max (m-d_{ij}^-+d_{ij}^+,0) Ltrip=K1i=1Kj=1nmax(mdij+dij+,0)

where d i j − = ∣ ∣ f f i n a l , j Q i − f f i n a l , j N i ∣ ∣ 2 2 ,   d i j + = ∣ ∣ f f i n a l , j Q i − f f i n a l , j P i ∣ ∣ 2 2 d_{ij}^-=||f^{Q_i}_{final,j}-f^{N_i}_{final,j}||^2_2, \ d_{ij}^+=||f^{Q_i}_{final,j}-f^{P_i}_{final,j}||^2_2 dij=ffinal,jQiffinal,jNi22, dij+=ffinal,jQiffinal,jPi22

L = λ C E L C E + λ t r i p L t r i p \mathcal{L}=\lambda_{CE}\mathcal{L}_{CE}+\lambda_{trip}\mathcal{L}_{trip} L=λCELCE+λtripLtrip

其中 λ C E \lambda_{CE} λCE λ t r i p \lambda_{trip} λtrip是超参数

实验结果

我可以使用的想法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

图2。条形 0 和条带 20 的视图投影矩阵示例。Diff 列显示了同一条带中不同视图的两个矩阵之间的绝对差异。

In order to explain the effectiveness of our framework, we compare the projection matrices of different views in ViGaitGL (trained on OU-MVLP). As illustrated in Figure 2, their difference has obvious vertical texture, which indicates that the projection matrices of different views has view specificity for feature mapping.

为了解释我们框架的有效性,我们比较了 ViGaitGL 中不同观点的投影矩阵(在 OU-MVLP 上接受过培训)。如图 2 所示,它们的差异具有明显的垂直纹理,这表明不同视图的投影矩阵具有特征映射的视图特异性。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值