一、论文内容
摘要
使用多任务机制,对single depth mapp做手部姿态估计。提出了CrossInfoNet网络,该网络有两个子任务:手掌的姿态估计和手指的姿态估计,并采用两分支交叉连接结构,在子任务之间共享有益的互补信息。。除此之外还使用了heatmap用于指导特征提取部分获得更好的特征图。最后作者证明他们的网络是可靠的:
通过广泛的自我比较实验和在四个公共手姿态数据集上与最先进的方法进行比较来评估提出的CrossInfoNet的有效性
1.Introduction
虽然3D姿态估计作为计算机视觉的热点问题已经发展了很多年,但是现在还无法解决关节的高度灵活、局部自相似性、严重遮挡。最近,研究领域重回RGB手部姿态估计研究的热潮,出现了许多优秀的work。作者把手部姿态估计分为两类:基于生成模型的方法和基于判别学习的方法。受益于数据集扩充和硬件计算能力的提升,CNN表现显著。
将深度图作为二维图像处理,直接回归三维关节坐标是一种常用的手部姿态估计方法。虽然将2.5D深度图转换为3D体素化形式会保留更多的信息但其参数负荷较大,仍存在信息缺陷。在本工作中,我们倾向于利用2D cnn的进步,并尝试从2D输入中挖掘更多的信息。
作者除了认为直接从CNN获取2D更方便之外呢,还认为共享机制助于强化具有较强泛化能力的模型。然而,在基于CNN的手部姿态估计中,多任务学习还没有得到足够的重视(所以作者要搞这个)。受参考论文的启发,设计了一种新的CNN结构,用于多任务设置下的手部姿态估计。层次模型是手部姿态估计网络的一种,在竞争中表现出了优异的性能(怎么又提到了乘此模型?)。通常通过分别处理不同手指或不同类型关节将姿态估计问题分成子任务。
整体的手部姿态的状态是由手掌的姿态决定的,而局部的姿态则是由手指关节的动作决定的(手指细化细节)。
作者认为从深度图回归3D坐标,