[行为识别]RPAN:An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos

RPAN是一种结合姿态估计信息的端到端递归姿势注意力网络,用于视频中的行为识别。通过使用TSN提取帧特征并结合LSTM时序记忆,RPAN在小规模含姿态信息的数据集Sub-JHMDB和PennAction上表现优秀。网络引入的姿势损失函数有助于注意力机制更专注于关键关节,与仅依赖类别损失的前序方法相比有所提升。
摘要由CSDN通过智能技术生成

这是一篇视频动作识别的论文,但值得注意的是,他利用了pose estimation的信息,即视频中人物的关节点的信息。论文没有在常见的HMDB和UCF101上测试,而是在两个带有关节点信息的小数据集上进行了测试, Sub-JHMDB and PennAction。

一、文章框架

这里写图片描述

1.卷积特征

本文首先用TSN提取每帧图片的feature map, 9×15×1024。即上图中的Ct,TSN并没有画出来

2.attention mechanism.

将feature map 以及上一时刻lstm的隐藏特征 h(t1) h ( t − 1 ) 送入attention模块,得到attention map, 9*15
这里写图片描述
文中最后分析了,这个attention 机制最后能使lstm捕捉到更多的运动特征,所以attention主要是帮助lstm.
(在什么情况下attention能帮助CNN,使它只提取想要的位置的特征?位为什么不联合TSN的卷积层一起训练?)

3. bodyPart特征

再将feature map和attention按照一定的方式相乘,得到每个body part 的特征Ft,p再拼接得到整个图片的特征St
这里写图片描述
这里写图片描述

4.LSTM时序记忆

将St送入lstm,记忆整个视频的信息,最后得出分类
损失函数包含两部分,一部分是类别的交叉熵损失函数,另一个是结合attention的pose loss
这里写图片描述
pose loss
本人认为最重要的就是这个pose loss ,用它来控制attention更加关注于各个关节点。不同于之前的attention 方法,只有类别loss。
这里的

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值