最大的创新点是gait网络识别是非常静态的,通过一种方法使得网络可以动态适应尺寸。
一、gait representation
-
什么是gait representation?有什么用
身份识别的作用,大概有剪影silhouette和关键点俩种方案。
本文是基于剪影的。
-
本文提出的几个观点
- 1、局部运动模式:其生成的序列特征有唯一的代表性,早期模型的固定像素感受,会丢失信息,因此动态地跟踪局部运动,才能更好地感受到局部特征。
- 个人理解:这种局部运动就是part of body,其可以生成很好的识别特征,但是需要结合各个局部特征共同解析,才能生成较好的个人识别结果。
- 可以有较为小的感知野去接受,存在在较浅层,局部信息还未被丢失时,才有可能去感受到。
- 2、全局运动特征:其问题还没有理解。
- 个人理解:是一种整体的特征,存在深层上。
- 因为各个像素计算经过深层后,才能用很好地被“联系”。
二、Backbone:
针对(一)中的问题,提出了LCMB模块去解决局部问题,GMPA模块解决全局问题。
可以看到,本文的方法是先提取局部的特征,后提取全局的特征。
Horizontal Pooling?
TA?
RA?
LCMB
LCMB是动态的主要体现
分模块去理解
首先是幅度Magnitude与相位Phase的生成,可以注意到抛弃了复数的相位。
- 抛弃负相位的原因:
实值特征的的计算:
real part?imag part?
实值特征得作用为需要的像素提供一张map,然后聚合每个像素的时空领域。
这公式的计算?
得到聚合输出oj。
简化计算后
实值特征输出oj
以下是动态聚合感知演示图
GMPA
所谓低阶与高阶GMPA的区别,高阶的感知图受噪声的影响更小。
最低阶的GMPA构造为:
这个是较高阶的GMPA构造方式:
三、LOSS
损失采用了常见的联合损失。
主损失看起来只是简单的欧式距离。
辅助损失是交叉熵损失。
四、一些实验
指标名 | 指标解释 |
NM | |
BG | 越大越好。这是步态识别的准确度,表示模型正确识别步态的能力。准确度为100%表示模型完全正确。 |
CL | 越大越好。这是分类任务的准确度,表示模型在对步态进行分类时的正确率。准确度为100%表示模型完全正确。 |
Mean | 三者平均值(why) |
低阶的GMPA数量为Npatt,数量越多,并没有发现成一个明显的线性关系,和BG显反比的趋势。
Npart为Horizontal Pooling水平池化的数量,可以发现越大约好。
创新总结:
最大的创新点我认为在于建立了LCMB这一动态捕捉局部特征的模块,这样确实为使得局部特征显得更加合理。
GMPA层更多看起来借鉴了PPM的思想。