目录
论文名称:View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition from Skeleton Data(2017 ICCV)
下载地址:https://arxiv.org/pdf/1703.08274.pdf
Motivation
采集骨架点的相机视角的不同 和 视频中的人做动作方向的不同 给骨架点人体动作识别任务带来了一定困难。
之前大家解决这个困难的方法是:将视频中每一帧的骨架中心点数据放置于原点,并将骨架点数据绕原点进行旋转,使得身体平面平行于 xy 平面。
但这样会丢失身体的运动信息,包括运动轨迹、身体中心运动的速度和身体变化的方向,导致例如走路这个动作变为原地行走,跳舞这个动作变为朝着一个固定的方向进行等情况。
所以,作者提出了一个端到端训练的、自适应视角的骨架点人体动作识别框架。
Preliminaries
视角变换的数学公式:
其中, 指的是第 t 帧中的第 j 个节点的数据。 是第 t 帧所有骨架点的位移参数。
是第 t 帧所有骨架点的旋转参数。
Proposed Method
作者提出了一个端到端训练的、自适应视角的骨架点人体动作识别框架。
该框架包含两个部分:视角适应子网 和 主 LSTM 网络。
- 视角适应子网:用来自动学习两个参数,即视角变换数学公式中的两个参数:rotation() 和 translation(),找到最适合对该段视频进行动作识别每一帧的视角。
再对每一帧的骨架点数据进行相同的视角变化。
- 主 LSTM 网络:对经过视角变化的骨架点数据进行动作识别。
端到端的训练主要体现在:通过主 LSTM 网络的动作识别的误差来调整视角适应子网的参数。