创新点:
1、本文对两种长视频的处理方式进行了实验和比较,并在相关数据集上达到了很好的效果;
2、本文设计了5种conv方式,用于对时空信息的捕捉,并实验证明了哪种方式的最优;
3、本文用LSTMs捕捉长视频的信息;
学到的东西:
1、普遍的帧预测的方法为将视频信息看成静态图像,然后使用cnn来识别每一张照片,通过平均得到视频的分类;
2、较长帧对视频分类有好的作用,结合光流也有很好的信息;
3、3D卷积分类不好的原因有使用的帧过少的问题;
4、pooling layer 可以用于结合时间信息,如不同帧的照片,通过池化来结合,提取时空信息,通过平均池化、最大池化、时域池化、全连接代替池化,表明最大池化更好;
5、LSTM的四种模式的测试;
6、对长视频的光流处理方式:当以每秒采取一帧的情况下,光流的处理,靠[19]进行双流融合;2、先对原始图像进行训练,然后使用该参数对光流特征进行初始化训练效果更好;3、使用[26]的方法计算每秒采样1帧的情况下的光流的计算;
7、数据的处理方式:1、针对长视频,每秒采样1帧,采样多分钟;2、对于视频分钟数数目不足的,本文选择的方式是从头播放;3、图像大小处理,并通过随机反转来进行数据增强;4、groud truth使用帧平均;
《Beyond Short Snippets: Deep Networks for Video Classification》解读
最新推荐文章于 2023-03-08 15:48:31 发布