P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

最新推荐文章于 2024-05-09 12:18:09 发布

StrongerTang

最新推荐文章于 2024-05-09 12:18:09 发布

阅读量2.2k

点赞数 1

分类专栏：视频动作检测文章标签： gcn 动作检测 ActionDetection 图卷积

本文链接：https://blog.csdn.net/qq_41590635/article/details/105053656

版权

视频动作检测专栏收录该内容

12 篇文章 13 订阅

订阅专栏

论文下载链接：https://arxiv.org/pdf/1911.11462.pdf

1 摘要
大多数最先进的行为定位系统都是单独处理每个动作proposal，而不是在学习过程中显式地利用它们之间的关系。然而，proposal之间的关系实际上在行动定位中扮演着重要的角色，因为一个有意义的行动总是由一个视频中的多个proposal组成。在本文中，我们提出利用图卷积网络(GCNs)来挖掘proposal - proposal关系。

首先，我们构造一个action proposal图，其中每个proposal表示为一个节点，两个proposal之间的关系表示为一条边。这里，我们使用两种类型的关系，一种用于捕获每个proposal的上下文信息，另一种用于描述不同action之间的关联。我们在图上应用GCN，以对不同proposal之间的关系进行建模，学习了动作分类和定位的强大表示。实验结果表明，我们的方法在THUMOS14上显著优于最先进的方法(49.1% versus42.8%)。此外，ActivityNet上的增强实验也验证了action proposal关系建模的有效性。
在这里插入图片描述
2 背景

对于一个视频，会产生很多个Proposal，如图中的P1——P4。

一方面，P1,P2,P3有一定重叠，描述同一动作实例的不同部分（开始阶段、动作中间、结束阶段）。传统的方法直接用P1的特征来预测，导致结果精度不高。如果把P2,P3的特征也考虑进去，则可以获得P1附近的文本信息，对于时序边界的回归是大有裨益的。

另一方面，P4描述的背景信息（如运动场），但它的内容对于P1的正确分类是很有帮助的，即使P4和p1在时序上是分开的。

3 方案对比（self-attention VS GCN）

目的都是获取Proposal-proposal之间的交互信息，
self-attention是通过自动学习的聚合权重把其他所有proposal的信息都聚合到一个proposal上，因为proposal数量通常很多，使得计算量巨大，成本太高。

而 GCN只是聚合相邻node的信息，使得计算量大幅度降低。

4 整体方案
在这里插入图片描述
两条支路:
支路1：对原始视频提取相应的proposal，处理后获取特征送入GCN网络，输出动作的分类；

支路2：对原始视频提取相应的proposal，并前后延伸包含更多的上下文语境信息，处理后获取特征送入GCN网络，输出动作的边界信息；

5 方法原理

5.1 数据预处理：
1）视频处理
同BSN、BMN（年前我介绍的百度的两篇文章，之后的DBG（腾讯的AAAI2020）又是在BMN上继续改进的），将视频有重叠的隔64帧作为一个视频片段，然后用I3D方法提取RGB+Flow双流特征，分别为100*1024维，100是时序长度；

2）proposals提取
通过TAG（Temporal action detection with structured segment networks.2017CVPR）从video中提取出若干proposals
在这里插入图片描述
每一个video生成的proposals为：

5.2 图的构建：

每个proposal作为图的一个节点， proposal-proposal之间的关系用图的edge来表示。因此，edges的构建对于proposal-proposal之间的关系特征十分重要。方案一是把所有的proposal彼此连接，但是会巨大的计算量，对于动作定位，把一些不应该连接的proposal连接起来，也会产生冗余的、有干扰的信息，影响最后的准确率。
方案二（论文方法）是通过proposal之间的相关性、远近来决定彼此是否连接。并定义了两种edge：Contextual Edges和Surrounding Edges。

Contextual Edges：
在这里插入图片描述
即像之前组会讲过的（Re-thinking the faster r-cnn architecture for temporal action localization.2018 CVPR）类似的融入上下文语境信息，给后期的定位提供更多的信息，从而获取更准确的动作边界。

Surrounding Edges：
在这里插入图片描述
r(pi,pj)=0，也就是proposal之间没有交集，这个时候通过选择中心坐标差（即距离）小的proposal彼此连接，这些附近的proposal往往包含背景信息（如篮球场等），这对于动作的分类十分有用。

5.3 Graph Convolution for Action Localization
GCN和CNN、RNN一样，都是用来提取特征的。
在这里插入图片描述
目前GCN通常为2层，即K=2。
对比实验中发现最后GCN输出之后，级联上最开始的输入X（0）效果更好。其实这就类似于目标检测中的ResNet思想。

在这里插入图片描述
支路1：动作分类

GCN输出跟一个FC，然后用softmax分类，得到支路一的输出，即动作分类。

支路2：动作定位
在这里插入图片描述

支路2的图和支路1的图一样，但是输入的特征X不同。支路2的X前后各延伸1/2的Proposal长度从而包含更多的上下文语境信息。

GCN输出之后，跟两个FC，一个用来输出动作的开始和结束边界，另一个用来输出新的“分类得分”（completeness label ci，表明该proposal是否完整）,因为有研究表明不完整的proposal虽然和ground truth的tIOU比较小，但是可能有比较高的分类得分，所以单单使用支路1的分类得分来排名选取proposal是不妥的。实验中将两者相乘。

5.4 训练中的采样策略
在这里插入图片描述
用于所有proposals计算量过大，故采用SAGE method（Inductive representation learning on large graphs. 2017）进行随机采样。

Ns即采样个数，论文中为4。只在training中采样，test中不采样。

6 整体算法
在这里插入图片描述
7 实验效果
THUMOS14 mAP=49.1% when tIoU=0.5，当前最好。ActivityNet效果有竞争力。

8 结论

1)第一个将proposal-proposal relations运用到temporal action localization中
2) 构建图网络来传递proposal之间的信息

图网络对于处理图片之外的非规则的数据，如社交关系、知识图谱等具有CNN、RNN等特征提取器明显不具备的优势，发展空间很大，这两年在各领域得到了大量研究和应用。这篇运用到Action detection上也取得了比较好的效果，是我后期工作的思路之一。
也欢迎感兴趣的朋友关注公。众号StrongerTang更多交流讨论，相互学习！

StrongerTang

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

论文下载链接：https://arxiv.org/pdf/1911.11462.pdfhttps://arxiv.org/abs/1909.032521 摘要大多数最先进的行为定位系统都是单独处理每个动作proposal，而不是在学习过程中显式地利用它们之间的关系。然而，proposal之间的关系实际上在行动定位中扮演着重要的角色，因为一个有意义的行动总是由一个视频中的多个proposal组成...
复制链接

扫一扫

专栏目录