[行为识别]RPAN：An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos

最新推荐文章于 2024-04-13 12:43:59 发布

lgy_keira

最新推荐文章于 2024-04-13 12:43:59 发布

阅读量3.1k

点赞数

分类专栏： paper阅读

本文链接：https://blog.csdn.net/u013608336/article/details/81020693

版权

RPAN是一种结合姿态估计信息的端到端递归姿势注意力网络，用于视频中的行为识别。通过使用TSN提取帧特征并结合LSTM时序记忆，RPAN在小规模含姿态信息的数据集Sub-JHMDB和PennAction上表现优秀。网络引入的姿势损失函数有助于注意力机制更专注于关键关节，与仅依赖类别损失的前序方法相比有所提升。

摘要由CSDN通过智能技术生成

这是一篇视频动作识别的论文，但值得注意的是，他利用了pose estimation的信息，即视频中人物的关节点的信息。论文没有在常见的HMDB和UCF101上测试，而是在两个带有关节点信息的小数据集上进行了测试， Sub-JHMDB and PennAction。

一、文章框架

这里写图片描述

1.卷积特征

本文首先用TSN提取每帧图片的feature map， 9×15×1024。即上图中的Ct，TSN并没有画出来

2.attention mechanism.

将feature map 以及上一时刻lstm的隐藏特征 $h_(t-1)$ 送入attention模块，得到attention map, 9*15
这里写图片描述
文中最后分析了，这个attention 机制最后能使lstm捕捉到更多的运动特征，所以attention主要是帮助lstm.
(在什么情况下attention能帮助ＣＮＮ，使它只提取想要的位置的特征？位为什么不联合ＴＳＮ的卷积层一起训练？)

3. bodyPart特征

再将feature map和attention按照一定的方式相乘，得到每个body part 的特征Ft,p再拼接得到整个图片的特征St
这里写图片描述

4.LSTM时序记忆

将St送入lstm，记忆整个视频的信息，最后得出分类
损失函数包含两部分，一部分是类别的交叉熵损失函数，另一个是结合attention的pose loss
这里写图片描述

本人认为最重要的就是这个pose loss ，用它来控制attention更加关注于各个关节点。不同于之前的attention 方法，只有类别loss。
这里的