题目:GaitSet 将跨视角步态识别识别任务中的步态视为一个集合
摘要:
作为一个可以在一定距离内识别的独特的生物特征,步态识别在预防犯罪、法医鉴定,和社会保障等方面具有广阔的应用前景,为了描述一个步态,现存的步态识别方法要么是步态模板方法(模板信息难以保存)要么是步态序列方法(由于要保留不必要的序列约束,所示会失去步态识别的灵活性)在这篇文章中我们提出了一个新奇的视角,将步态视为独立帧的步态序集合,我们提出了一个名为gaitset的新的网络来从步态集合中学习身份信息,基于集合的视角,我们的方法不受帧的排列的影响,可以很自然的整合不同场景下拍摄的不同视频的帧,比如不同的观看角度,不同的穿着不同的携带条件,实验表明,在非正常条件下行走时,我们的单个模型在CASIA-B数据集上达到了95%的rank1 精度,在OU-MVLP 数据集上达到l87.1%的准确率,这些方法表明了我们的方法的准确率达到了最先进的水平,在其他的大量的场景下我们的方法具有很强的鲁棒特性,在背包和穿大衣的行走条件下,我们的方法达到了87.2%和70.4%的准确率,这些都很大程度上超过了现存的最先进的方法,这些方法在小数量帧的样本上依旧可以达到很可观的准确率,比如在CASIA-B数据集仅有7帧的样本上可以达到82.5%的准确率。
1介绍
与其他的生物识别技术如虹膜指纹人脸识别技术不同,步态识别技术是一种独特的生物识别技术,它可以在一定距离下识别,不需要人的配合,也不会对人产生干扰,因此它在预防犯罪法医鉴定 社会保障中具有广阔的应用前景
然而步态识别受其他外部特征的影响,如行走速度、穿着、携带物,相机视角和帧速度,在研究中主要有两种方法识别步态,将步态视为图像和将步态视为视频序列,第一种方法将所有的步态轮廓压缩为一张图片,或者称为步态模板,步态模板很简单容易执行,但是步它容易丢失时间和空间细粒度信息,不同的是第二种方法是直接从原始步态序列中提取特征,然而这些方法易受外部因素干扰,像3DCNN这样的可以提取连续信息的深度神经网络比起单个模板和步态能量图更难以训练,为了解决这些问题我们提出了一种新的视角——将步态轮廓视为集合,作为一个周期运动,步态可以表示为一个周期,,一个轮廓序列中包含一个步态周期 从图一中可以看到不同位置的轮廓具有不同的外观,即使它们被打乱,也很容易仅仅依靠观察他们的外观将他们恢复成原顺序,因此我们假设一个轮廓的外观已经包含了它的位置信息,在这种假设下,步态序列的顺序信息不再重要,我们可以直接将步态视为一个提取时间信息的集合,我们提出了一个端到端的深度学习模型——gaitset,模型架构在图二中已展示,我们的输入时一个步态轮廓的集合,首先使用CNN从每个轮廓中单独的提取帧级别的特征,其次,SetPooling 方法将帧级别的特征整合为集合级别的特征,因为方法是用在高级别的特征映射图上而不是原始的步态轮廓图,所以比起步态模板,它更容易保存时空信息,这将会在实验4.3中被证明,水平金字塔的映射架构将集合特征映射到更具有判别性的空间中,来获得更高层次的特征,该方法的优越性如下:
更具灵活性:我们的模型非常的灵活,因为模型的输入除了轮廓的大小没有任何的限制条件,这就意味着,输入集合可以包含任何数量的,任何不同视角拍摄下的任何行走条件的非连续性轮廓,相关实验在4.4节中
更快:我们的模型可以直接识别步态的表征,而不是比较不同步态模板或者轮廓的相似性,因此每个步态轮廓的表征仅仅需要被计算一次,然后通过计算不同样本表征之间的欧几里得距离来完成识别任务
更有效:我们的模型很大程度上提高了CASIA-B 和OU-MVLP数据集上的性能,并且显示出面向视角和行走条件很强的鲁棒特性和在更大的数据集上的泛化能力
2相关工作
2.1 步态识别
步态识别任务可以分为基于模板的和基于序列的两种,第一种首先通过背景减法的方法获得每个帧的轮廓,其次在对齐的轮廓上渲染像素级别的运算符,第三通过机器学习方法(如典型相关分析CCA,线性判别分析,深度学习)提取步态特征,第四通过欧几里得距离或者其他的度量学习方法衡量表征对之间的相似性,最后通过分类器如最近邻分类器给模板分配一个标签
之前的工作大体上将流程分为了两部分,模板生成和模板匹配,生成是将步态压缩为一个图片如步态能量图GEI 还有CGI,模板匹配的方法有视角转化模型,学习两个视角的投影…最近深度学习在大量的生成任务上表现出了很好的性能,同样也可以用于步态识别任务上
第二种方法基于视频序列的方法,直接将一个视频序列的轮廓作为输入,基于提取时间信息的方法它们可以被分为基于LSTM的方法和基于3DCNN的方法,这些方法的优点是:1)可以专注每一个轮廓获得更为全面的空间信息,2)可以获得更多的时间信息,因为使用了专门的架构来提取序列信息,然而这些优势付出的代价是高昂的计算成本。
2.2 无顺序集合上的深度学习
大多的深度学习工作主要关注规律的输入,如序列和图片,无序集合的概念首次在(PointNet)中被引入计算机视觉领域用来解决点云任务,使用无序集合,PointNet可以避免在量化过程中产生噪声和数据扩展,获得一个比较高的性能,因此基于无序集合的方法在点云任务中获得了广泛的应用,
最近这些方法被用于计算机视觉领域如内容推荐和图像字幕用来以集合的形式聚类特征,(Zaheer2017)这个论文进一步形式化了定义在集合上的深度学习任务,刻画了置换不变函数,据我们所致目前还没有将其应用于步态识别领域
3步态识别
在这一节中,我们描述了我们再一个步态轮廓的集合中学习具有鉴别力的信息的方法,整体的流程在图二中已画出
3.1问题公式化
首先我们制定我们的概念——将步态视为一个集合,给定一个含有N个人的集合他们的身份是
y
i
y_{i}
yi
i
ϵ
1
,
2
,
3...
N
i\epsilon1,2,3...N
iϵ1,2,3...N我们假设一个特定人的步态轮廓服从一种只和他身份相关的分布
P
i
\mathbb{P}{i}
Pi 因此一个人的一个或者多个序列的轮廓可以视为包含n个轮廓的集合
χ
i
\chi _{i}
χi={
x
i
j
∣
j
=
1
,
2
,
3...
n
x_{i}^{j}|j=1,2,3...n
xij∣j=1,2,3...n}
x
i
j
ϵ
P
i
x_{i}^{j}\epsilon \mathbb{P}{i}
xijϵPi
在这种假设下,我们通过三步解决步态识别任务 可以被公式化为
f
i
=
H
(
G
(
F
(
χ
i
)
)
)
f_{i}=H(G(F(\chi _{i})))
fi=H(G(F(χi)))
F 是一个卷积网络 主要任务是从每一个步态轮廓中提取帧级别的特征
G是一个置换不变方程,用来将帧级别的特征映射为集合级别的特征,它主要是通过一个SetPooling的操作执行在3.2 小节中会具体介绍,
H用来从集合级别的特征中学习
P
i
\mathbb{P}{i}
Pi 更具有鉴别力的表征,这个函数操作主要是通过水平金字塔映射来执行在3.3节中会介绍
输入
χ
i
\chi _{i}
χi是一个思维张量(集合维度,图片通道维度,图片高,图片宽)(S,C,H,W)
3.2 集合池化
集合池化的目的是将集合中元素的步态信息集合起来,用公式表示为
z
=
G
(
V
)
z=G(V)
z=G(V)V表示集合级别的特征,
V={
v
j
∣
j
=
1
,
2
,
3...
N
v^{j}| j=1,2,3...N
vj∣j=1,2,3...N}在这个操作中有两个限制,首先将集合作为一个输入,该集合应该是一个置换不变方程,
π
\pi
π是任意的排列,第二因为在现实生活场景中,一个人的步态轮廓可以是任意的,所以函数G应该能够取一个具有任意基数的集合,下面的实验中我们描述了几个G的实例,将会展示在我们的实验中,虽然SP不同的实例对性能确实有一定的影响,但是他们的差异不大,都大大超过了基于GEI的方法
统计函数:为了满足公式中不变的约束,一个很自然的决策是在集合维度应用统计方程,考虑到表征性和计算性损失,我们使用了三个统计方程,max(·), mean(·) and median(·) 对比将展示在4.3节中,
联合函数我们也学习了三种方法来联合上面学到的三种统计函数
cat 意味着在通道维度合并,1-1C意味着11卷积 max means median 均被应用在集合维度,公式四是公式三的加强版本,11卷积可以学到一个合适的权重来不同统计函数提取的信息进行组合。
注意力
我们用注意力来提高SP的性能,它的结构如图3所示。其主要思想是利用全局信息来学习每个帧级特征图的元素注意力图以对其进行细化
信息被统计函数第一次提取,提取到的信息和原始特征图一起被送入1*1卷积的网络来计算改进的注意力,最终通过在改进的帧级别的特征映射集使用MAX提取集合级别的特征Z,残差结构可以加速稳定和收敛
3.3 水平金字塔
…