Graph Convolutional Networks for Temporal Action Localization
作者从proposal之间的关系出发,首先构造一个action proposal图(将proposal作为节点,proposal之间的关系作为边),文中构造了两种边contextual edges和surrounding edges分别用于“提取上下文信息”和“描述不同action之间的相关性”。再用GCN建模学习强大的表示用于分类和定位。
如图1,作者讲述了该方法的构想。对于已经生成的4个proposal, 覆盖了同一个动作实例的不同部分,如果只针对
进行预测,特征信息是不充分的,所以加入
的特征,得到更多上下文的信息。另一方面,
描述背景信息(如运动场),它的内容可以帮助识别
的动作标签。
本文中将proposal作为节点并利用GCN建模proposal的关系,其中节点之间的边可以分为contextual edges(图1中的 )和surrounding edges(图1中的
)。虽然信息是从每一层的本地邻居聚合而来,但是如果GCNs的深度增加,在远程节点之间传递消息仍然是可能的。
主要贡献:
- 第一个利用proposal-proposal关系进行时间动作定位。
- 为了对提案之间的交互进行建模,将proposal作为节点,通过一些准则建立proposal之间的边,构建proposals图,然后应用GCNs在proposal之间做信息聚合。