Introduction
Multi-person Articulated Tracking with Spatial and Temporal Embeddings,CVPR 2019
商汤,多人姿态估计和跟踪
Motivation
本文对多人动作识别和跟踪任务提出了一个统一的框架,由SpatialNet和TemporalNet组成。空域网络实现了单帧的姿态检测,时域网络实现了连续帧之间的人体跟踪。空域网络除了检测动作热力图,还可以预测关键点映射KE和空间实例映射SIE,本文使用PGG使得部件检测和组合可实现端到端训练。给定连续两帧中的人体候选框,时域网络可为跟踪获取人体映射HE和时间实例映射TIE信息。
(a)使用KE和SIE进行姿态估计,SIE会将一个动作分成多个部分,而KE可能错误地将多个动作混为一谈。
(b)使用HE和TIE进行动作跟踪,TIE对相机的移动不鲁棒,导致跟踪对象识别错误,而HE对动作变化不鲁棒,导致同一个动作识别成两个不同的动作。
(c)使用PGG+KE可以使得embedding更精确和简洁,颜色相同的更可能属于同一个person。