思路:将transformer引入姿态估计
方法:使用的CNN backbone + Transformer Encoder的结构。如果从原图开始直接使用transformer则计算量过大。最后使用transformer的输出reshape回2维图像,取其激活最大值坐标位置作为关节点坐标。
1.Top-down方式。使用卷积作为backbone进行特征图提取
2.Transformer编码层通过query-key-value注意力迭代地从序列中捕获依赖项,再用一个简单的head来预测关键点热图
1. 摘要
提出了一种名为TransPose的模型,将Transformer引入人体姿态估计。Transformer中内置的注意层使我们的模型能够有效地捕获长期关系,并且还可以揭示预测的关键点依赖于什么。为了预测关键点热图,最后的注意层充当了一个聚合器,它从图像线索中收集贡献,并形成关键点的最大位置。这种通过Transformer的基于热图的本地化方法符合激活最大化的原则。并且揭示的依赖关系是特定于图像的和细粒度的,这也可以提供模型如何处理特殊情况的证据,例如遮挡。
2.主要工作
卷积在提取底层特征方面具有优势,但在高层深度叠加卷积以扩大感受野并不能有效地捕获全局依赖关系。如下图所示,注意层使模型能够捕获任何成对位置之间的交互,它的注意图充当了存储这些依赖关系的即时记忆。
CNN vs. Attention 左图:感受野在更深的卷积层中扩大。右:一个自我注意层可以捕捉任何位置的一对点之间的成对关系
3. Contributions
(1)引入了用于人体姿态估计的Transformer来预测基于热图的关键点位置,可以有效地捕捉人体各部位之间的空间关系。
(2)证明了我们基于Transformer的关键点定位方法符合激活最大化的可解释性[19,49]。定性分析揭示了直觉之外的依赖关系,这些依赖关系是特定于图像的和细粒度的。
4. 框架总览
首先,利用CNN骨干网络提取特征图并将其展开为序列。接下来,Transformer编码层通过query-key-value注意力迭代地从序列中捕获依赖项。然后,用一个简单的head来预测关键点热图。Transformer中的注意图可以揭示哪些依赖项(区域或关节点)对预测关键点热图中的激活最大位置有显著贡献
4.1. Architecture
TransPose模型由三个分量组成: