A Robust Multi-Athlete Tracking Algorithm by Exploiting Discriminant Features and Long-Term Dependencies
问题描述:追踪视频中的运动员,背景为运动赛事解说和分析;
场景特点:人员固定,人员活动频繁,人员活动的速度比较固定,同队人员外观十分相似,队内不同角色的姿势有较大不同;
论文主要内容:
- 将Pose信息融入外观、运动和交互的评分;
- 利用AlphaPose的方法,针对关节进行比对,减少噪音影响和遮挡;
整体框架:
PTSN
-
Pose-based Appearance stream(PAS)
由AlphaPose得到姿势特征,实验使用32维向量;外观特征由ResNet提取,实验使用32维向量;姿势特征和外观特征融合为64维向量,作为LSTM的输入;
输入运动员i在1~t时刻的特征信息,与运动员j在t+1时刻的特征对比,LSTM输出到一个Softmax层,得到PAS相似性系数; -
Posed-based Motion stream(PMS)
AlphaPose提取姿势特征后传入运动提取器,根据上式计算16个关节点的速度信息,速度信息是关节点相对移动的距离,(x,y)为平面坐标;16个关节点如下图所示: -
Posed-based Interaction stream(PIS)
假设前提:辨认一个运动员不仅要靠他自己的特征,还要考虑他周围人的信息;
措施:考虑目标对象周围3个运动员的相对信息;
在Interaction Grid (IG)交互网格上标出目标与周围最靠近的三个运动员的交互特征;考虑6个关键节点:头、左手腕、左脚腕、右手腕、右脚腕、中心点,如下图:
IG网格计算方式(t时刻运动员i): -
平均PAS、PMS、PIS即得到最后融合的分数;
算法描述
其中Cactive存储迄今追踪到的tracklets,Cdie存储没用的,Cfinal存储最后输出的,Clost存储没有匹配的;