【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding

在动作识别领域,人跟物体的交互信息是非常重要的,一个动作的完成包含了多个物体与人的复杂交互。以往的工作很少考虑到这样复杂的交互关系。这篇文章要做的就是对视频中的多个物体的交互建模,利用这样的信息来提高动作识别的准确率。

如何对物体之间的交互建模

物体之间的交互可以通过物体之间的重叠来判断,如果两个物体重叠了,那么说明它们在这个动作发生的时候有一些密切的交互信息。而物体重叠的判断可以通过各自的特征的相似度来进行,因为重叠的物体肯定有一部分特征比较相似。
基于这样的想法,作者设计了如下的结构:
这里写图片描述
这个结构按照中间的虚线可以分成上下两部分。

Coarse-grained

这部分提取多帧视频的特征。首先对T帧图像分别提取特征,接着把这T个特征向量映射到另一个维度。最后通过SDP Attention提取出T帧图像的整体表达,即全局特征。
其中SDP Attention参考了谷歌的All you need is attention这篇论文中的attention模块的设计。其思想是,把每一帧图像表达成T帧图像的线性和,系数由每一帧图像与其他帧图像的相似性计算得到。最后再把这重表达之后的T个特征向量取个平均池化得到整体的特征 vc v c

Fine-grained

这里写图片描述
对于某一帧图像,首先用Region Proposal网络生成N个物体候选,对每个生成的物体提取特征,把这N个特征向量映射到另一个维度。这里用了一个LSTM来学习时序关系。LSTM的隐藏层表示物体之间的关系信息。把T帧图像全局特征 vc v c 与物体之间的关系信息以及object特征concate到一起,再经过SDP Attention,输入LSTM得到下一帧的隐藏层表达。
最终用第T帧时刻的隐藏层以及T帧图像的全局特征来预测视频类别。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值