论文精读——IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition
近期在做基于关键点的人体动作识别研究,调研了几篇基于transformer架构的 skeleton based action recognition 方面的文章,并且进行一个精读。
其中选取的一篇论文题为:IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition,来自AIbee 一个AI公司,学生作者分别为北交大和南大的同学。最近刚刚发布在Arxiv上,应该还是在投状态。
个人认为这篇文章的质量还是比较高的, 起码对于我来说不仅具有创新性,还有很大的启发性(文章设计的具体步骤,方式思路,以及一些消融实验真的都非常有趣)
#############################################################################
文章来源
题目:IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition
链接&下载地址:
论文地址: https://arxiv.org/abs/2110.13385
一些相关连接:
开源代码:
目前该算法暂无开源代码
paper with code :https://paperswithcode.com/paper/iip-transformer-intra-inter-part-transformer
#############################################################################
1. 简单说背景
目前基于骨骼关键点的动作识别问题(skeleton based action recognition)经过了3DCNN、 2stream 、LSTM的baseline模型阶段, 在过去的两年左右时间内,基本上是以GCN(图卷积网络)为baseline 进行解决的。标志性的文章就是 19年的ST-GCN(这个应该不用多讲,网络上随便搜一下就有很多解析)。
ST-GCN 可以视为 GCN 结构解决关键点识别问题的“开创者”,这点是毋庸置疑的,因为它不仅仅贡献了一个网络,而是构建了关键点序列拓扑图的一种架构范式,将其转化成CNN 从而直接进行卷积等特征提取操作,从而使得很多CNN的trick以及模块 得以复制和使用到关键点动作识别中。自此之后,大量的基于GCN 的工作得以展开,非常多网络得以提出,也极大的提