AAAI 2020 码隆科技实验室+南京大学
1 摘要
在这项工作中,我们提出了用于视频动作识别的知识集成网络(KINet)。KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人类信息和场景上下文。我们设计了一个由一个动作识别主分支和两个辅助分支组成的三分支体系结构,该结构允许模型对动作识别中的人和场景知识进行编码。我们探索了两种预先训练的教师网络模型来提取人类和场景的知识,用于训练KINet的辅助任务。此外,我们还提出了一种两层的知识编码机制,其中包含一个跨分支集成(CBI)模块,用于将辅助知识编码为中级卷积特征,以及用于有效融合高级上下文信息的动作知识边缘图(AKG)。这就产生了一个端到端可训练的框架,其中三个任务可以协同训练,从而使模型能够有效地计算强上下文知识。所提出的KINet在大规模动作识别基准Kinetics-400上达到了最先进的性能,最高精度为77.8%。我们进一步证明KINet具有强大的能力,将Kinetics训练模型转移到UCF-101,在那里它获得97.8%的top-1精度。
2 相关背景
2.1 动作识别
人类动作是一个高级别的概念,可以通过人物、场景等各类信息识别某一动作的内容,从而实现动作分类的任务。
下图中,第一列可以直接通过雪地背景和任务的着装就判断是滑雪的动作;第二列,虽然由于分辨率较低,加之存在运动模糊,我们无法看成图中的球是什么种类,但是通过球场和运动员信息,我们可以判断是打篮球的动作;第三列,从人物展示的姿势中,我们可以很容易地辨别出这是俯卧撑的动作。因而,文本信息对于理解视频中的人类动作有着至关重要的作用。相应地,学习到这样的文本信息对于动作识别任务精度的提升大有裨益。
以往工作通常将动作识别当做一个分类任务,试图直接从视频的训练中获取动作相关的语义信息。他们认为视频相关的语义特征信息可以直接通过强大的CNN模型,加上视频级的标签就可以直接训练得到。但近期研究表明,同时研究动作和动作实施者分割对于这两个任务都有很大的促进。
深度学习的方法已经在human parsing (Gong et al. 2017), pose estimation (Wang et al. 2019), semantic segmentation (Zhao et al. 2017), and scene recognition(Zhou et al. 2017; Wang et al. 2017)等领域取得了优异的表现。通过利用这些现有的技术学习视频中的文本信息来增强动作检测模型的能力成为了思路之一。论文作者设计了知识蒸馏机制来学习人和场景的文本知识,通过联合训练动作识别、人物解析、场景识别,是这三个任务联合工作,提供了无需额外手工注释的研究动作识别的新方法。
2.2 人体解析(human parsing)
人体解析是指将在图像中捕获的人分割成多个语义上一致的区域,例如, 身体部位和衣物。作为一种细粒度的语义分割任务,它比仅是寻找人体轮廓的人物分割更具挑战性。
人体解析对于以人为中心的分析非常重要,并且具有许多工业上的应用,例如,虚拟现实,视频监控和人类行为分析等。
人体解析常用的数据集:
3 方案原理
Knowledge Integration Networks (KINet)使用两个教师网络来指导主网络。两个教师网络目的在于提供假的ground truth给scene recognition和human parsing两个任务。
主网络包含三个分支,中间的基础分支是用来action recognition,另外两个分别设计用来scene recognition和human representation,引入了Cross Branch Integration (CBI)模块将辅助的知识融进中间的卷积特征和Action Knowledge Graph (AKG)来有效聚合高级的文本信息。
3.1 The Teacher Networks
3.1.1 Human parsing network
使用的数据集是LIP (Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing. 2017 CVPR) 。
论文作者直接采用现有的PSPNet ( Pyramid scene parsing network. 2017 CVPR) 作为人体解析的teacher network,网络主体是DenseNet-121。
3.1.2 Scene recognition network
使用的数据集是Places365(Places: A10 million image database for scene recognition. 2017 PAMI),包含365个场景种类。
论文作者直接采用现有的ResNet152 作为teacher network的网络主体。
3.2 The Main Networks
论文使用Temporal Segment Network (TSN) 结构作为动作识别的网络框架。
三个分支共享low-level layers,原因在于:
1)low-level features are generalized over three tasks;
2)sharing features allow the three tasks to be trained more collaboratively with fewer parameters used;
higher level layers是三个独立的分支,并不共享参数,但是通过各种聚合机制交换信息。
3.3 Knowledge Integration Mechanism
论文的目标是设计一个高效的特征聚合方法来融合不同级别的文本知识,为此提出了一个两级的聚合机制,包括Cross Branch Integration (CBI) module 和 Action Knowledge Graph (AKG) method。
3.3.1 Cross Branch Integration (CBI)
CBI的目的在于将从两个辅助分支学习到的中间特征聚合到action recognition分支,进而实现模型融入了人和场景的信息。
如图,与action的特征图分别相乘后,BN层,之后类似resnet操作,再relu,之后三个特征图按通道级联,然后再通过一个1X1的卷积降低通道数,使得通道数和开始的一致,最后再一个类似resnet操作。
CBI模块可以应用到网络的任何一步。
3.3.2 Action Knowledge Graph (AKG)
在最后阶段,对每一个分支单独进行全局平均池化,得到三组同样大小的特征表示向量。每一组包含个特征向量Each group contains N seg feature vectors, 对应于 个输入帧,这里的是TSN中的视频片段数量。
然后对这些特征表示向量运用图卷积去建模相互之间的关系, 即action, scene和human segments之间的关系。
构建的图的节点总数为:
节点为:
运算为:
和我上次的GCN汇报一样。
3.4 Joint Learning
端到端联合训练,损失函数为:
4 实验效果
4.1 Kinetics-400数据集
4.2 UCF101 数据集
4.3 可视化
5 结论
文本信息的融入十分重要,本文设计了teacher网络来聚合人和场景的信息,取得了很好的效果,后期可以借鉴到动作检测上。
推荐阅读:
TEINet: Towards an Efficient Architecture for Video Recognition(AAAI2020)
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
G-TAD: Sub-Graph Localization for Temporal Action Detection
ActivityNet数据集简介及下载分享(百度网盘)