LTC: 用于动作识别的长期时间卷积

Long-term Temporal Convolution for Action Recognition(2017)

 

主要贡献

1.提出长期时间卷积网络(LTC)

2.实现了在UCF-101(92.7%)和HMDB51(67.2%)数据集上行人动作识别的SOTA结果

图片

    作者认为将视频分成短片段并通过利用每个片段的得分来整合视频级的信息,或者更复杂的方案像LSTM,都可能是次优的。因此作者提出长期的时间卷积网络(LTC),即采用更长的时间片段作为输入,但为了降低计算量,LTC模型把空间上的分辨率缩小了。论文中,作者对时间片段的长短,空间分辨率的大小各自做了效果对比。

 

长期时间卷积网络LTC

 

图片

    如图所示,网络由五层卷积网络,三层全连接层组成,卷积层的大小分别为64,12,8,256,256,256, 全连接层的大小分别为2048, 2048 ,n_classes。每个卷积层使用3x3x3的时空卷积核(与2D卷积核相比,不同之处在于多出的那一维是在时间维度上每次移动stride进行卷积),每个卷积层后接ReLU层,再接时空最大池化层(与卷积同理,每次在时间维度上移动stride进行池化),除了第一层是2x2x1以外,其他每层ReLU层后的时空最大池化层大小为2x2x2。在3个维度上的padding都是1。卷积的步长都是1,池化的步长都是2。在前两个全连接层使用dropout.网络最后使用softmax计算类别分数。

 

模型输入:

    作者基于C3D模型,比较了输入16帧和60帧的效果,其中输入的16帧的分辨率为112x112(其原来分辨率为171x128),输入的60帧的分辨率为58x58(是从视频原大小缩放到89x67后随意裁剪出58x58),因此两个输入的大小分别为112x112x16和58x58x60。

    如图2所示:60帧输入的网络在时间维度上五个卷积层对应的分辨率分别为60,30,15,7,3,而16帧输入的网络在时间维度上五个卷积层对应的分辨率分别为16,8,4,2,1。因此在第五层卷积输出后16帧和60帧网络各自的分辨率为1x1x3,和3x3x1。作者还评估了时间维度上不同的分辨率的效果,t取{20,40,60,80,100},以及空间分辨率取{58x58, 71x71}。

 

    论文主要的贡献就是提出LTC,本文介绍了其模型结构,输入的一些细节,此外,论文里提到了一些其他的训练细节,如除了输入尺寸不同以外,还实验了RGB和光流分别作为输入的效果,对比固定一些层,只对fc层进行finetune和from-scratch的效果对比等。这些都不是创新点,算是每篇论文都会提到的东西,这里就不多提了。

 

 conclusion

图片

    图a显示了不同长度片段的整体片段精度变化,说明片段长度越长,片段精度整体都更高。

    图b显示了不同长度片段的整个视频的精度变化。图b说明,整体上视频的精度会随着片段长度的增加而提高,但部分会降低。

    图c显示了每个类别随着片段长度的增加的精度变化,说明了部分类的行为会随着输入片段长度的增加而提高,部分在提高后又下降。

    图d显示了不同输入片段长度下,能达到最高精度的行为类别的数量。说明整体上大部分行为的最高识别精度在片段长度较大时取到。

    部分行为类别在输入片段长度增加后反而降低的一个可能的原因是这部分行为是一个比较短的动作。因此作者得出的结论是比较短的动作适合输入比较短的视频片段,而长的动作需要输入长的片段,但没办法下一个定论取哪个长度最好。

图片

上图是LTC模型与其他SOTA模型的效果对比。

 

如有错误,欢迎留言指出.

本文来源于微信公众号“ CV技术指南 ”的模型总结部分 。更多内容与最新技术动态尽在公众号发布。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值