Knowledge Integration Networks for Action Recognition AAAI 2020

AAAI 2020 码隆科技实验室+南京大学

1 摘要

在这项工作中,我们提出了用于视频动作识别的知识集成网络(KINet)。KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人类信息场景上下文。我们设计了一个由一个动作识别主分支和两个辅助分支组成的三分支体系结构,该结构允许模型对动作识别中的人和场景知识进行编码。我们探索了两种预先训练的教师网络模型来提取人类和场景的知识,用于训练KINet的辅助任务。此外,我们还提出了一种两层的知识编码机制,其中包含一个跨分支集成(CBI)模块,用于将辅助知识编码为中级卷积特征,以及用于有效融合高级上下文信息的动作知识边缘图(AKG)。这就产生了一个端到端可训练的框架,其中三个任务可以协同训练,从而使模型能够有效地计算强上下文知识。所提出的KINet在大规模动作识别基准Kinetics-400上达到了最先进的性能,最高精度为77.8%。我们进一步证明KINet具有强大的能力,将Kinetics训练模型转移到UCF-101,在那里它获得97.8%的top-1精度。

2 相关背景
2.1 动作识别
人类动作是一个高级别的概念,可以通过人物、场景等各类信息识别某一动作的内容,从而实现动作分类的任务。

下图中,第一列可以直接通过雪地背景和任务的着装就判断是滑雪的动作;第二列,虽然由于分辨率较低,加之存在运动模糊,我们无法看成图中的球是什么种类,但是通过球场和运动员信息,我们可以判断是打篮球的动作;第三列,从人物展示的姿势中,我们可以很容易地辨别出这是俯卧撑的动作。因而,文本信息对于理解视频中的人类动作有着至关重要的作用。相应地,学习到这样的文本信息对于动作识别任务精度的提升大有裨益。

在这里插入图片描述
以往工作通常将动作识别当做一个分类任务,试图直接从视频的训练中获取动作相关的语义信息。他们认为视频相关的语义特征信息可以直接通过强大的CNN模型,加上视频级的标签就可以直接训练得到。但近期研究表明,同时研究动作和动作实施者分割对于这两个任务都有很大的促进。

深度学习的方法已经在human parsing (Gong et al. 2017), pose estimation (Wang et al. 2019), semantic segmentation (Zhao et al. 2017), and scene recognition(Zhou et al. 2017; Wang et al. 2017)等领域取得了优异的表现。通过利用这些现有的技术学习视频中的文本信息来增强动作检测模型的能力成为了思路之一。论文作者设计了知识蒸馏机制来学习人和场景的文本知识,通过联合训练动作识别、人物解析、场景识别,是这三个任务联合工作,提供了无需额外手工注释的研究动作识别的新方法。

2.2 人体解析(human parsing)
人体解析是指将在图像中捕获的人分割成多个语义上一致的区域,例如, 身体部位和衣物。作为一种细粒度的语义分割任务,它比仅是寻找人体轮廓的人物分割更具挑战性。
人体解析对于以人为中心的分析非常重要,并且具有许多工业上的应用,例如,虚拟现实,视频监控和人类行为分析等。

在这里插入图片描述
人体解析常用的数据集:

在这里插入图片描述
3 方案原理

在这里插入图片描述
Knowledge Integration Networks (KINet)使用两个教师网络来指导主网络。两个教师网络目的在于提供假的ground truth给scene recognition和human parsing两个任务。

主网络包含三个分支,中间的基础分支是用来action recognition,另外两个分别设计用来scene recognition和human representation,引入了Cross Branch Integration (CBI)模块将辅助的知识融进中间的卷积特征和Action Knowledge Graph (AKG)来有效聚合高级的文本信息。

3.1 The Teacher Networks
3.1.1 Human parsing network
使用的数据集是LIP (Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing. 2017 CVPR) 。

论文作者直接采用现有的PSPNet ( Pyramid scene parsing network. 2017 CVPR) 作为人体解析的teacher network,网络主体是DenseNet-121。

3.1.2 Scene recognition network
使用的数据集是Places365(Places: A10 million image database for scene recognition. 2017 PAMI),包含365个场景种类。

论文作者直接采用现有的ResNet152 作为teacher network的网络主体。

3.2 The Main Networks
论文使用Temporal Segment Network (TSN) 结构作为动作识别的网络框架。

三个分支共享low-level layers,原因在于:

1)low-level features are generalized over three tasks;
2)sharing features allow the three tasks to be trained more collaboratively with fewer parameters used;
higher level layers是三个独立的分支,并不共享参数,但是通过各种聚合机制交换信息。

3.3 Knowledge Integration Mechanism

论文的目标是设计一个高效的特征聚合方法来融合不同级别的文本知识,为此提出了一个两级的聚合机制,包括Cross Branch Integration (CBI) module 和 Action Knowledge Graph (AKG) method。

3.3.1 Cross Branch Integration (CBI)
CBI的目的在于将从两个辅助分支学习到的中间特征聚合到action recognition分支,进而实现模型融入了人和场景的信息。

在这里插入图片描述
如图,与action的特征图分别相乘后,BN层,之后类似resnet操作,再relu,之后三个特征图按通道级联,然后再通过一个1X1的卷积降低通道数,使得通道数和开始的一致,最后再一个类似resnet操作。

CBI模块可以应用到网络的任何一步。

3.3.2 Action Knowledge Graph (AKG)

在这里插入图片描述
在最后阶段,对每一个分支单独进行全局平均池化,得到三组同样大小的特征表示向量。每一组包含在这里插入图片描述个特征向量Each group contains N seg feature vectors, 对应于 在这里插入图片描述个输入帧,这里的在这里插入图片描述是TSN中的视频片段数量。

然后对这些特征表示向量运用图卷积去建模相互之间的关系, 即action, scene和human segments之间的关系。

构建的图的节点总数为:
在这里插入图片描述
节点为:
在这里插入图片描述
在这里插入图片描述
运算为:
在这里插入图片描述
和我上次的GCN汇报一样。

3.4 Joint Learning
端到端联合训练,损失函数为:
在这里插入图片描述
在这里插入图片描述

4 实验效果
4.1 Kinetics-400数据集
在这里插入图片描述

4.2 UCF101 数据集
在这里插入图片描述
4.3 可视化
在这里插入图片描述
5 结论
文本信息的融入十分重要,本文设计了teacher网络来聚合人和场景的信息,取得了很好的效果,后期可以借鉴到动作检测上。

推荐阅读:
TEINet: Towards an Efficient Architecture for Video Recognition(AAAI2020)
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
G-TAD: Sub-Graph Localization for Temporal Action Detection
ActivityNet数据集简介及下载分享(百度网盘)

Human parsing has been extensively studied recently (Yamaguchi et al. 2012; Xia et al. 2017) due to its wide applications in many important scenarios. Mainstream fashion parsing models (i.e., parsers) focus on parsing the high-resolution and clean images. However, directly applying the parsers trained on benchmarks of high-quality samples to a particular application scenario in the wild, e.g., a canteen, airport or workplace, often gives non-satisfactory performance due to domain shift. In this paper, we explore a new and challenging cross-domain human parsing problem: taking the benchmark dataset with extensive pixel-wise labeling as the source domain, how to obtain a satisfactory parser on a new target domain without requiring any additional manual labeling? To this end, we propose a novel and efficient crossdomain human parsing model to bridge the cross-domain differences in terms of visual appearance and environment conditions and fully exploit commonalities across domains. Our proposed model explicitly learns a feature compensation network, which is specialized for mitigating the cross-domain differences. A discriminative feature adversarial network is introduced to supervise the feature compensation to effectively reduces the discrepancy between feature distributions of two domains. Besides, our proposed model also introduces a structured label adversarial network to guide the parsing results of the target domain to follow the high-order relationships of the structured labels shared across domains. The proposed framework is end-to-end trainable, practical and scalable in real applications. Extensive experiments are conducted where LIP dataset is the source domain and 4 different datasets including surveillance videos, movies and runway shows without any annotations, are evaluated as target domains. The results consistently confirm data efficiency and performance advantages of the proposed method for the challenging cross-domain human parsing problem. Abstract—This paper presents a robust Joint Discriminative appearance model based Tracking method using online random forests and mid-level feature (superpixels). To achieve superpixel- wise discriminative ability, we propose a joint appearance model that consists of two random forest based models, i.e., the Background-Target discriminative Model (BTM) and Distractor- Target discriminative Model (DTM). More specifically, the BTM effectively learns discriminative information between the target object and background. In contrast, the DTM is used to suppress distracting superpixels which significantly improves the tracker’s robustness and alleviates the drifting problem. A novel online random forest regression algorithm is proposed to build the two models. The BTM and DTM are linearly combined into a joint model to compute a confidence map. Tracking results are estimated using the confidence map, where the position and scale of the target are estimated orderly. Furthermore, we design a model updating strategy to adapt the appearance changes over time by discarding degraded trees of the BTM and DTM and initializing new trees as replacements. We test the proposed tracking method on two large tracking benchmarks, the CVPR2013 tracking benchmark and VOT2014 tracking challenge. Experimental results show that the tracker runs at real-time speed and achieves favorable tracking performance compared with the state-of-the-art methods. The results also sug- gest that the DTM improves tracking performance significantly and plays an important role in robust tracking.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值