视频理解论文串讲（上）【论文精读】

深度学习入门咨询

已于 2022-12-08 17:24:21 修改

阅读量775

点赞数

分类专栏：【论文精读】文章标签：人工智能深度学习神经网络

于 2022-12-08 17:21:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43154149/article/details/128226708

版权

【论文精读】专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
总结

from：https://www.bilibili.com/video/BV1fL4y157yA
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. DeepVedio【CNN 首次 for 视频理解】

在这里插入图片描述

方法1：融合fusion
在这里插入图片描述
方法2：多分辨率 CNN 网络

效果

在这里插入图片描述

总结：

当时手工特征最好就能达到87了，本文效果远远不如手工特征
这篇文章的意义在于：【这篇文章的意义不在于它的效果】
- 引发大家思考：深度学习在视频理解领域碰壁了
- 提出了视频理解领域最大的数据集
- 把能想到的融合方式都尝试了一遍，给后续工作很好的铺垫，这才有了后面几年深度学习在视频领域的飞速发展

2. Two-Stream【双流网络】

在这里插入图片描述
方法：
当你用一个卷积神经网络无法很好处理时序信息的时候，

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

大幅提高了性能，证明了双流网络的成功，迅速就有很多工作跟进了…
我们其实单从这个图里就能看到，比较容易想到的想法

fusion？怎么做early fusion？中间fusion？
替换 backbone，如何在小数据集上控制过拟合？
在抽出来的特征之上，再加LSTM，把它们之间的这些时序信息模拟起来，最后得到的特征更强
长时间视频理解？

针对上面不同方向，有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

现在深度学习时代，用CNN去抽特征，关键是如何做pooling操作？这篇论文里做了非常详尽的探索，还做了ConvPooling，latePooling…，最后的结论都是差不多，ConvPooling表现最好

在这里插入图片描述
如何使用LSTM？

C是最后抽出来的特征

在这里插入图片描述
效果：

LSTM没有那么有用…

手工87.9，双流网络88.0，本文在双流网络上做的所以效果要比他好，88.2，88.6，只好了1点点，LSTM带来的提升非常有限

在这里插入图片描述
朱毅老师对此现象的解释：

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
总结

Early fusion方向【Convolutional fusion】

关键词：fusion
这篇文章，非常细致地讲了，如何做这种 fusion，如果在两个流之间做fusion

在这里插入图片描述

Spatial fusion【空间维度】

在特征图上

在这里插入图片描述

接下来的问题是说，到底在网络的哪个部分做fusion呢？
到底是偏前面的层conv1，conv2，还是偏后面的conv4，conv5？还是最后的分类层fc6，fc7？

两个方法：
在这里插入图片描述

如何做temporal fusion？

在这里插入图片描述

最后作者得出的方案：

在这里插入图片描述

效果：

尝试1：backbone 换成 VGG，提升还是明显的

在这里插入图片描述

这篇文章的贡献: 1. 详尽的消融实验探索；2. 使用了3D CNN，变相推动3D CNN的发展
【启发：一篇文章的效果不只是看结果好不好，一些探索实验能否给后来研究者一些探索，启发等… 和第一篇论文很像，虽然结果不好，但是做了很多探索实验】

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
总结

长视频【TSN temporal segment 分段的思想，good work】

在这里插入图片描述

方法：分段

想法非常简单，给视频分段的思想，good work

在这里插入图片描述

好用的技巧：

光流模型初始化【RGB做平均复制20份】：

在这里插入图片描述

第二个技巧：模型正则化
第3个技巧：数据增强

在这里插入图片描述

效果：

在这里插入图片描述

在这里插入图片描述

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
总结

总结

在这里插入图片描述

没整理完，，，转移到本地了，加上whisper的翻译…

深度学习入门咨询

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。