Title
GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition
原文地址:https://arxiv.org/abs/1811.06186v4
github:https://github.com/AbnerHqC/GaitSet
Summary
这篇论文提出了一种新的解决步态识别的视角,将传统的输入内容GEI取代,在确保训练难度低和准确率高的情况下提出一种新的算法模型——GaitSet,将步态序列作为输入序列,包含了时间信息和空间信息,让步态识别更加准确,实用性变高。
New idea or Questions
- Multiple Walking Conditions下单一视角,有限轮廓图状态下,利用SP是否能够提取出相应特征并保证准确率。
- 不连续的步态序列,或者打乱的步态序列是否可以保持准确率。
Research Objective
提升步态识别在多视角下的准确率
Problem Statement
- 步态模板很容易丢失时间和细粒度的空间信息的问题
- 步态轮廓序列提取容易受到外部因素影响的问题
- 用于提取序列信息的深度神经网络比GEI单个模板的深度神经网络更难训练的问题。
Method(s)
论文中提出一种新的思路,即将步态识别特征视为一组步态轮廓图,作为周期性运动,步态可以由一个周期表示。
- 概述:将步态视为一组序列。给定一个数据集,数据集中一共N个人,每个人用yi表示。假设某个人的步态轮廓分布
P
i
P_i
Pi只与这个人的ID有关。因此,在一个或多个序列中,所有的轮廓可以被看做是Xi = {
x
i
j
x_i^j
xij | j = 1,2,…,n}, 其中
x
i
j
x_i^j
xij∼
P
i
P_i
Pi
- F是卷积网络,从每个步态轮廓中提取帧级特征。
- G是用于将一组帧级特征映射到序列级特征的排列不变的函数,通过Set Pooling(SP)实现。
- H是用于序列级特征中学习Pi的辨别表示。此函数通过Horizontal Pyramid Mapping(HPM)实现。
- 输入Xi是四个维度的tensor,分别是序列维度,图像通道维度,图像高度和图像宽度维度。
- Set Pooling
Sp的目的在于收集一下整个序列的步态信息。z = G(V ),z表示序列级特征,V表示帧级特征。 - Horizontal Pyramid Mapping
问题:将特征图分割成条的方式经常用于人的重新识别任务。根据行人大小裁剪图像并将其尺寸调整为均匀尺寸,但辨别部分仍然因图像而异
- 提出用Horizontal Pyramid Pooling(HPP)来解决上述问题,利用HPP的4个等级,帮助深度网络同时提取局部和全局特征。
- 如图所示,对每个池化后的特征使用独立的完全连接层将其映射到判别空间,而不是在合并后应用1*1卷积层。(HPM)
- 首先,PM具有S个尺度,在尺度s ∈ 1,2,…,S上,由SP提取的特征图在高度尺寸上被分成 2 s − 1 2^{s-1} 2s−1条,即总共 ∑ s = 1 S 2 s − 1 \sum_{s=1}^{S} 2^{s-1} ∑s=1S2s−1条。
- 其次,用一个全局池化将3维strips变为1维特征。
- 最后,使用FC将特征映射到辨别空间。
- Multilayer Global Pipeline
SP提取的序列级特征在不同层有相似的属性。如图1所示的主流程,在卷积网络的最后只有一个SP。为了收集不同级别的序列信息而提出Multilayer Global Pipeline (MGP)
Evaluation
数据集:CASIA-B ,OU-MVLP
样本:小样本训练(ST)、中样本训练(MT)、大样本训练(LT)
Limited Silhouettes 有限轮廓数量
1)随着轮廓数量的增加,精度单调上升。
2)当样本含量超过25个轮廓后,正确率接近最佳状态。这个数字与一个步态周期所包含的帧数一致。
Multiple Views 多视角
- 有些情况下收集到的是一个人不同视角的步态信息
Multiple Walking Conditions
- 现实生活中,很可能同一个人有不同的行走状态
Conclusion
本论文提出了一种新的方法解决步态识别,目前是CASIA-B数据集上准确率最高的算法。GaitSet可以比那些将步态作为模板或序列的现有方法更有效地提取空间和时间信息。它还提供了一种从不同序列聚合有价值信息的新方法,以提高识别准确性。两个基准步态数据集(公开标准数据集)的实验表明,与其他最先进的算法相比,GaitSet实现了最高的识别精度,并在各种复杂环境中显示出广泛的灵活性,在实际应用中显示出巨大的潜力。