Video you only look once: Overall temporal convolutions for action recognition论文解析

最新推荐文章于 2022-05-06 16:53:25 发布

冯爽朗

最新推荐文章于 2022-05-06 16:53:25 发布

阅读量476

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mieleizhi0522/article/details/80011573

版权

深度学习专栏收录该内容

47 篇文章 16 订阅

订阅专栏

论文地址： https://www.sciencedirect.com/science/article/pii/S1047320318300233?via%3Dihub

这两天读了一个关于视频中动作识别的论文，属于分类网络，就是将短视频中正在进行的是某个动作识别出来（一个视频只有一种动作），先说一下主要流程吧：

这个论文虚的很！特能吹！其实3页的内容写了整整八页，全TM是废话！你先看看名字，VideoYOLO! 跟Joseph Redmon大神的YOLO齐名了，其实跟YOLO一点没有关系，只是暗指自己的网络快，害的我一听YOLO激动的不行，其实只是一个盗版的C3D网络，好了，言归正传吧。

其实并不是那么差，还是有要学习的地方的！

1.目前主流的视频中动作识别网络分为两大部分，一个是2D-CNN网络，另一个是3D-CNN网络

2D-CNN网络就是一张一张的把视频的每帧送入网络进行检查，然后得出结果，可想而知，这样会很慢。
3D-CNN网络就是将视频中的帧在时间轴上叠在一起，形成一个3D图像，然后进行3D卷积提取特征并识别。这样会比较快一点。

2. 3D-CNN网络里面也分为多种，就是帧的选取，有的是整个视频的帧都保留进行处理，有的是选出来一部分进行处理，至于怎么选出来一部分，又是一个大学问：

普遍做法是将每个视频分成若干个clip,每个clip进行3D卷积，比如C3D就是这么干的（其实C3D不是这么干的，作者说错了，我待会会讲C3D是怎么干的）。
本文做法是在一个视频中按照时间顺序均匀或随机（后面就一直用的均匀）抽取T帧，然后将T帧合并在一起形成 proxy video，进行3D卷积运算送入网络。如下图：

3.由于抽取的帧数不确定，作者设置了8种 { 4,8,16,32,48,64,80,96 }进行对比，而且每种网络都有细微的差别，主要在池化层上面。（你看看VYOLO-16的网络，这TM明显就是C3D网络，一个参数不带变的）

4.经过第3步之后就得到了分类结果，就直接输出了，简单吧，就这些东西，当然，作者也对这些数据进行了对比，然后竟然比C3D的效果要好那么一点点，竟然！

5,这种抽取的方法值得一学，另外C3D的抽取方法其实更厉害，C3D是先均匀抽样，然后再在均匀抽样之后取连续的16张进行的，这样有好处也有坏处，好处就是能减少帧数，坏处就是那16张不一定能代表整体，说不定是在最前面呢，或者最后面呢。

谢谢大家，我的表演结束！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Video you only look once: Overall temporal convolutions for action recognition论文解析

论文地址： https://www.sciencedirect.com/science/article/pii/S1047320318300233?via%3Dihub 这两天读了一个关于视频中动作识别的论文，属于分类网络，就是将短视频中正在进行的是某个动作识别出来（一个视频只有一种动作），先说一下主要流程吧：这个论文虚的很！特能吹！其实3页的内容写了整整八页，全TM是废话！...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。