读书笔记：Large-scale Vedio Classification with Convolutional Neural Networks

最新推荐文章于 2023-05-20 08:30:54 发布

kmyfoer

最新推荐文章于 2023-05-20 08:30:54 发布

阅读量654

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/kmyfoer/article/details/80733362

版权

本文探讨了用于视频分类的卷积神经网络（CNN）的不同结构，包括Single Fusion、Early Fusion、Late Fusion和Slow Fusion，并详细解析了它们的工作原理。此外，还介绍了一种修改网络结构的方法，通过降低输入维度并使用Fovea和Context Streams来加速训练过程，同时保持输出维度不变。

摘要由CSDN通过智能技术生成

主要点：一是设计了不同结构的CNN来学习视频分类。二是设计了一种加速训练的方法。

- 不同结构的CNN
- 修改网络结构以加速训练

不同结构的CNN

这里写图片描述

Single Fusion ：和图片分类没有区别
Early Fusion : 在第一层的卷积中，就直接将输入帧全部融合，相当于将卷积扩展为三维。
Late Fusion ：每隔一定的帧数，抽取两帧，每帧的处理步骤与Single Fusion相同，但在全连接层，将两帧的输出融合。两帧的前处理步骤的网络共享参数。它相比Single Fusion能够识别动作的原因是，通过比较两帧的差异，可以识别动作。
Slow Fusion ：是Single Fusion和Late Fusion 的一个折中，在开始的CNN卷积层中，假如每次输入是10帧，那么Early Fusion 的第一层卷积核为（a， 3，10），即a×a×3（通道数）×10。也就是一下就融合完了，而Slow Fusion是（a，3, 4），以2为步长，就会得到时间序列上对应的4个输出，再在时间序列上长度为2,步长为2进行融合，得到时间序列上2个输出。在第三层才最终在时间序列上融合完毕。

最低0.47元/天解锁文章

kmyfoer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读书笔记：Large-scale Vedio Classification with Convolutional Neural Networks

主要点：一是设计了不同结构的CNN来学习视频分类。二是设计了一种加速训练的方法。不同结构的CNN修改网络结构以加速训练不同结构的CNNSingle Fusion ：和图片分类没有区别 Early Fusion : 在第一层的卷积中，就直接将输入帧全部融合，相当于将卷积扩展为三维。 Late Fusion ：每隔一定的帧数，抽取两帧，每帧的处理步骤...
复制链接

扫一扫

专栏目录