Video you only look once: Overall temporal convolutions for action recognition论文解析

   论文地址: https://www.sciencedirect.com/science/article/pii/S1047320318300233?via%3Dihub

    这两天读了一个关于视频中动作识别的论文,属于分类网络,就是将短视频中正在进行的是某个动作识别出来(一个视频只有一种动作),先说一下主要流程吧:

     这个论文虚的很!特能吹!其实3页的内容写了整整八页,全TM是废话!你先看看名字,VideoYOLO!    跟Joseph Redmon大神的YOLO齐名了,其实跟YOLO一点没有关系,只是暗指自己的网络快,害的我一听YOLO激动的不行,其实只是一个盗版的C3D网络,好了,言归正传吧。

    其实并不是那么差,还是有要学习的地方的!

1.目前主流的视频中动作识别网络分为两大部分,一个是2D-CNN网络,另一个是3D-CNN网络

  •        2D-CNN网络就是一张一张的把视频的每帧送入网络进行检查,然后得出结果,可想而知,这样会很慢。
  •       3D-CNN网络就是将视频中的帧在时间轴上叠在一起,形成一个3D图像,然后进行3D卷积提取特征并识别。这样会比较快一点。

2. 3D-CNN网络里面也分为多种,就是帧的选取,有的是整个视频的帧都保留进行处理,有的是选出来一部分进行处理,至于怎么选出来一部分,又是一个大学问:

  •                     普遍做法是将每个视频分成若干个clip,每个clip进行3D卷积,比如C3D就是这么干的(其实C3D不是这么干的,作者说错了,我待会会讲C3D是怎么干的)。
  •                     本文做法是在一个视频中按照时间顺序均匀或随机(后面就一直用的均匀)抽取T帧,然后将T帧合并在一起形成 proxy video,进行3D卷积运算送入网络。如下图: 

 

3.由于抽取的帧数不确定,作者设置了8种 { 4,8,16,32,48,64,80,96 }进行对比,而且每种网络都有细微的差别,主要在池化层上面。(你看看VYOLO-16的网络,这TM明显就是C3D网络,一个参数不带变的)


4.经过第3步之后就得到了分类结果,就直接输出了,简单吧,就这些东西,当然,作者也对这些数据进行了对比,然后竟然比C3D的效果要好那么一点点,竟然!



5,这种抽取的方法值得一学,另外C3D的抽取方法其实更厉害,C3D是先均匀抽样,然后再在均匀抽样之后取连续的16张进行的,这样有好处也有坏处,好处就是能减少帧数,坏处就是那16张不一定能代表整体,说不定是在最前面呢,或者最后面呢。

                                                     谢谢大家,我的表演结束!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值