T3D—《Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification》概述

最新推荐文章于 2022-11-27 21:47:03 发布

一只工程狮

最新推荐文章于 2022-11-27 21:47:03 发布

阅读量2k

点赞数 2

分类专栏： Paper Computer Vision

本文链接：https://blog.csdn.net/qq_40913465/article/details/106467342

版权

9 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

《Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification》概述

最近有些时间，所以把这篇之前读的论文来总结概括一下，以防自己以后遗忘查询也方便有需要的同学来阅读，本篇文章是在DenseNet的基础上（3D卷积核）使用类似于Inception的方法提出的一种新的网络结构T3D，以下是对该篇论文思路的大体概括，如有错误，欢迎留言指正。

问题：如何用视频中的时间线索来精确分类，特别是对人类动作识别的分类，基于这个问题，作者提出了以下的方法，也是本文的主要贡献；

2.1 现存网络结构的问题：

3D卷积不能够利用长时间的信息，这限制这种结构的表现，且还存在以下的问题：

对于以上的问题，作者提出了两种做法来缓解这些问题：

2.2 TTL：Temporal Transition Layer

作者为了在一个更短或者更长的范围内对可变的时间3D卷积核进行建模，提出了TTL，来取代DenseNet中标准的Transition layers 层。如下图所示，为一个TTL的结构，其中 $T_1、T_2、T_3$ 表示不同的时间深度。

2.3 Temporal 3D ConvNets结构

如下如所示，T3D是基于DenseNet实现的，其将2D卷积用3D卷积替换，并用TTL来取代DenseNet中标准的Transition layers层。
但有一点需要注意的是T3D模型的模型参数是DenseNet3D的1.3倍。

具体的网络结构描述：

2.4 Supervision or Knowledge Transfer

由于训练集的限制且三维卷积网络的参数较多，训练难度大，作者提出了一种迁移学习方法来将二维卷积网络的权重迁移到三维卷积网络中，其中训练结构如下图所示，具体实现方式如下：

二维卷积网络使用的是在ImageNet上pre-train之后的DenseNet模型，三维卷积网络的权值是完全随机初始化的；
两个网络输入的都是视频序列图片，二维网络是将视频序列的单帧图片依次输入，将网络是最后的2D的fc特征取平均，得到1024-d的特征；同时三维卷积网络直接送入序列图片得到3D的fc特征，也同样是1024-d的特征；
将以上两个特征concantenate之后送入两层全连接层进行分类，判断这两个网络输入的视频是否一致；
训练过程中2D网络权值不更新，这样在训练过程中不需要得到视频的label，只需要知道送入两个网络的视频是不是同一个即可，也即希望三维网络在训练过程中不断具备对序列视频的特征提取能力;

通过以上的学习，3D ConvNets可以直接在UCF101这样的小数据集上进行训练，并获得比从头开始训练更好的性能。