Paper Reading: Relational Action Forecasting

摘要

本论文解决视频中多人场景的动作预测的问题。通过H帧视频,检测并预测随后T帧的动作。我们的方法通过建立一个循环图同时对不同人物之间的时空交互动作进行建模。使用Faster R-CNN得到人物的proposal。我们的方法可以学习选择关系子集而不需要明确的监督,因此可以对付有挑战性的视频数据。我们模型的名字叫做判别关系循环网络。并且在AVA J-HMDB数据集上面做了验证。

Introduction

我们的方法试建立一个图循环神经网络,其中节点与人物检测相关联,边缘代表人之间的潜在交互关系。每个节点有一个动作类别和bounding box。我们使用一个修改过的图注意力模型来捕捉两两图之间的交互影响。节点还通过RNN连接来捕捉时间维度的模态信息。
我们使用弱监督的方法来训练模型,我们有在0帧时人物的bounding box信息,以及1:T帧的动作标签。我们的模型可以学习什么边缘(edge)?是有用的,进而最大化节点分类的性能。在AVA数据集中,我们的模型可以预测5s以上的动作。

Related Work

##关系推理
关系推理可以捕捉一系列实体之间的关系。比如抽象实体或者特征之间的关系,不同物体、人和物体、人和语境以及人和人之间的关系。我们的工作集中于捕捉人之间的关系来推理未来的动作。
一些标准的工作,包括Interaction Network (IN) [5], Relation Network (RN) [51], Graph Neural Network (GNN) [19], Graph ATtenion networks,Actor-centric Relation Network
(ACRN) [59] and Object Relation Network (ORN) [4]。
区别于RN和ORN建立所有关系,我们的方法未来人物级别的动作预测有区别地建立部分关系。

方法

未完待续

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值