resnet过拟合_行为识别 论文笔记(四)ResNet-3D(Tran)

题目:ConvNet Architecture Search for Spatiotemporal Feature Learning

链接:

ConvNet Architecture Search for Spatiotemporal Feature Learning​arxiv.org

摘要

提出了深度3D残差网络,性能比C3D网络好得多:比C3D快两倍且小两倍。表示更加紧凑

引言

改进ConvNet架构的设计已经刺激了图像理解方面的重大进展:从AlexNet到VGG,然后是GoogleNet,最后是ResNet。视频理解是计算机视觉的另一个基础的问题,但视频分类架构[14,24,33]和表示学习[41]的进展较慢。阻碍强大结构的因素主要有三个:第一,与图像模型相比,视频的计算量和内存消耗更高。比如在C3D模型中,在UCF101上训练模型需要3到4天,在Sports-1M上需要两个月,因此导致在UCF101上寻找广泛的结构很难。第二,目前还没有一个用于视频架构搜索的标准基准。在静态的图像中,可以在一个合理的时间内在ImageNet上训练网络,而且在ImageNet上表现良好的结构已经被证明可以用于其他任务,比如对象检测和分割。在视频领域,Sport-1M被证明在通用特征学习上是有用的,但是用它来进行寻找结构还是太大了。相比之下,虽然UCF101和ImageNet有相似的帧数,但是它们是高度相关的,并且设置被严格控制。因此,在这个基准上训练的模型很容易过拟合,[41,14]的实验表明,从头训练的ConvNets可以获得41 - 44%的精度,而在UCF101上对Sports1M惊醒微调可以将精度提高到82%。第三,设计视频分类模型并非易事,有许多选择产生的结果是敏感的,其中包括如何对输入进行采样和预处理、卷积的类型、使用多少层以及如何对时间维度建模。因此,虽然图像领域的进展显然应该纳入视频建模,单纯地将图像模型转换为视频分类(例如简单地将2D Resnet应用于视频帧)是次优的。

在本文中,我们通过在一个小型基准上(UCF101)寻找一个精心设计的架构搜索来解决这些问题,有人可能会说,这些发现的普遍性受到了数据集的偏差的限制,会将搜索的结果过拟合到UCF101上。我们通过两项努力来解决这个问题。首先,我们限制这些网络使它们有相似的容量(参数的数量),他们仍然会过拟合,但是精度的提高更多的归功于结构的单一变化而不是容量。其次,在这个小数据集架构的搜索上使我们得到一个有效的三维深度残差网络,当我们在更大的数据集上(sport - 1m)进行训练时,证明了它的有效性,而且在不同的视频基准测试中都取得了不俗的成绩。综上所述,本文的贡献如下:

  • 通过在UCF101上进行行为识别的训练来进行跨多个维度的ConvNet架构搜索,并提出对每个维度敏感性的经验观察
  • 我们提出(据我们所知)第一个深度3D残差网络并在大规模视频基准上训练,用于时空特征学习。
  • 我们的时空特征在Sport-1M(不使用长时间模型),UCF101和HMDB51(只考虑RGB输入)上,以及在THUMOS14和ASLAN竞赛的表现上都取得了sota性能。
  • 我们的模型比目前的深度视频特征快2倍,小2倍,更紧凑。

2. 相关工作

视频理解是计算机视觉的核心问题之一,已经研究了几十年。许多对视频理解的研究都集中在发展视频的时空特征上。一些提出的视频表征包括时空兴趣点STIPs,SIFT-3D,HOG3D,Cuboids和ActionBank。这些表示是手工设计的,使用不同的特征编码方案,如特征直方图或金字塔在手工制作的表示中,改进密集轨迹(iDT)被认为是目前最先进的手工制作特征,在不同的视频分类问题上有很好的结果。

自计算机视觉深度学习在2012年ImageNet挑战赛上亮相取得突破以来,许多基于卷积神经网络的方法被提出来用于图像识别。Simonyan和Zisserman提出了堆叠多个3×3小卷积核,在中间使用更过非线性relu单元的方法来近似大卷积核(比如5

5,7
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值