【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding

最新推荐文章于 2024-08-26 14:35:03 发布

goodluckcwl

最新推荐文章于 2024-08-26 14:35:03 发布

阅读量2.6k

点赞数 1

分类专栏：论文阅读 CV-其他 CV-视频分析-视频动作识别文章标签：动作识别深度学习

本文链接：https://blog.csdn.net/u014230646/article/details/80878109

版权

论文阅读同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

CV-其他

7 篇文章 0 订阅

订阅专栏

CV-视频分析-视频动作识别

1 篇文章 0 订阅

订阅专栏

在动作识别领域，人跟物体的交互信息是非常重要的，一个动作的完成包含了多个物体与人的复杂交互。以往的工作很少考虑到这样复杂的交互关系。这篇文章要做的就是对视频中的多个物体的交互建模，利用这样的信息来提高动作识别的准确率。

如何对物体之间的交互建模

物体之间的交互可以通过物体之间的重叠来判断，如果两个物体重叠了，那么说明它们在这个动作发生的时候有一些密切的交互信息。而物体重叠的判断可以通过各自的特征的相似度来进行，因为重叠的物体肯定有一部分特征比较相似。
基于这样的想法，作者设计了如下的结构：
这里写图片描述
这个结构按照中间的虚线可以分成上下两部分。

Coarse-grained

这部分提取多帧视频的特征。首先对T帧图像分别提取特征，接着把这T个特征向量映射到另一个维度。最后通过SDP Attention提取出T帧图像的整体表达，即全局特征。
其中SDP Attention参考了谷歌的All you need is attention这篇论文中的attention模块的设计。其思想是，把每一帧图像表达成T帧图像的线性和，系数由每一帧图像与其他帧图像的相似性计算得到。最后再把这重表达之后的T个特征向量取个平均池化得到整体的特征 $v_c$ 。

Fine-grained

这里写图片描述
对于某一帧图像，首先用Region Proposal网络生成N个物体候选，对每个生成的物体提取特征，把这N个特征向量映射到另一个维度。这里用了一个LSTM来学习时序关系。LSTM的隐藏层表示物体之间的关系信息。把T帧图像全局特征 $v_c$ 与物体之间的关系信息以及object特征concate到一起，再经过SDP Attention，输入LSTM得到下一帧的隐藏层表达。
最终用第T帧时刻的隐藏层以及T帧图像的全局特征来预测视频类别。