这是一篇视频动作识别的论文,但值得注意的是,他利用了pose estimation的信息,即视频中人物的关节点的信息。论文没有在常见的HMDB和UCF101上测试,而是在两个带有关节点信息的小数据集上进行了测试, Sub-JHMDB and PennAction。
一、文章框架
1.卷积特征
本文首先用TSN提取每帧图片的feature map, 9×15×1024。即上图中的Ct,TSN并没有画出来
2.attention mechanism.
将feature map 以及上一时刻lstm的隐藏特征 h(t−1) h ( t − 1 ) 送入attention模块,得到attention map, 9*15
文中最后分析了,这个attention 机制最后能使lstm捕捉到更多的运动特征,所以attention主要是帮助lstm.
(在什么情况下attention能帮助CNN,使它只提取想要的位置的特征?位为什么不联合TSN的卷积层一起训练?)
3. bodyPart特征
再将feature map和attention按照一定的方式相乘,得到每个body part 的特征Ft,p再拼接得到整个图片的特征St
4.LSTM时序记忆
将St送入lstm,记忆整个视频的信息,最后得出分类
损失函数包含两部分,一部分是类别的交叉熵损失函数,另一个是结合attention的pose loss
本人认为最重要的就是这个pose loss ,用它来控制attention更加关注于各个关节点。不同于之前的attention 方法,只有类别loss。
这里的