论文地址: https://www.sciencedirect.com/science/article/pii/S1047320318300233?via%3Dihub
这两天读了一个关于视频中动作识别的论文,属于分类网络,就是将短视频中正在进行的是某个动作识别出来(一个视频只有一种动作),先说一下主要流程吧:
这个论文虚的很!特能吹!其实3页的内容写了整整八页,全TM是废话!你先看看名字,VideoYOLO! 跟Joseph Redmon大神的YOLO齐名了,其实跟YOLO一点没有关系,只是暗指自己的网络快,害的我一听YOLO激动的不行,其实只是一个盗版的C3D网络,好了,言归正传吧。
其实并不是那么差,还是有要学习的地方的!
1.目前主流的视频中动作识别网络分为两大部分,一个是2D-CNN网络,另一个是3D-CNN网络
- 2D-CNN网络就是一张一张的把视频的每帧送入网络进行检查,然后得出结果,可想而知,这样会很慢。
- 3D-CNN网络就是将视频中的帧在时间轴上叠在一起,形成一个3D图像,然后进行3D卷积提取特征并识别。这样会比较快一点。
2. 3D-CNN网络里面也分为多种,就是帧的选取,有的是整个视频的帧都保留进行处理,有的是选出来一部分进行处理,至于怎么选出来一部分,又是一个大学问:
- 普遍做法是将每个视频分成若干个clip,每个clip进行3D卷积,比如C3D就是这么干的(其实C3D不是这么干的,作者说错了,我待会会讲C3D是怎么干的)。
- 本文做法是在一个视频中按照时间顺序均匀或随机(后面就一直用的均匀)抽取T帧,然后将T帧合并在一起形成 proxy video,进行3D卷积运算送入网络。如下图:
3.由于抽取的帧数不确定,作者设置了8种 { 4,8,16,32,48,64,80,96 }进行对比,而且每种网络都有细微的差别,主要在池化层上面。(你看看VYOLO-16的网络,这TM明显就是C3D网络,一个参数不带变的)
4.经过第3步之后就得到了分类结果,就直接输出了,简单吧,就这些东西,当然,作者也对这些数据进行了对比,然后竟然比C3D的效果要好那么一点点,竟然!
5,这种抽取的方法值得一学,另外C3D的抽取方法其实更厉害,C3D是先均匀抽样,然后再在均匀抽样之后取连续的16张进行的,这样有好处也有坏处,好处就是能减少帧数,坏处就是那16张不一定能代表整体,说不定是在最前面呢,或者最后面呢。
谢谢大家,我的表演结束!