视频理解论文串讲(上)【论文精读】

from:https://www.bilibili.com/video/BV1fL4y157yA
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. DeepVedio【CNN 首次 for 视频理解】

在这里插入图片描述

方法1:融合fusion
在这里插入图片描述
方法2:多分辨率 CNN 网络
在这里插入图片描述
效果

在这里插入图片描述

总结:

  • 当时手工特征最好就能达到87了,本文效果远远不如手工特征
  • 这篇文章的意义在于:【这篇文章的意义不在于它的效果】
    • 引发大家思考:深度学习在视频理解领域碰壁了
    • 提出了视频理解领域最大的数据集
    • 把能想到的融合方式都尝试了一遍,给后续工作很好的铺垫,这才有了后面几年深度学习在视频领域的飞速发展
      在这里插入图片描述

2. Two-Stream【双流网络】

在这里插入图片描述
方法:
当你用一个卷积神经网络无法很好处理时序信息的时候,
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大幅提高了性能,证明了双流网络的成功,迅速就有很多工作跟进了…
我们其实单从这个图里就能看到,比较容易想到的想法

  • fusion?怎么做early fusion? 中间fusion?
  • 替换 backbone,如何在小数据集上 控制过拟合?
  • 在抽出来的特征之上,再加LSTM,把它们之间的这些时序信息模拟起来 ,最后得到的特征更强
  • 长时间视频理解?

针对上面不同方向,有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

现在深度学习时代,用CNN去抽特征,关键是 如何做pooling操作?这篇论文里做了非常详尽的探索,还做了ConvPooling,latePooling…,最后的结论都是差不多,ConvPooling表现最好

在这里插入图片描述
如何使用LSTM?

  • C是最后抽出来的特征

在这里插入图片描述
效果:

  • LSTM没有那么有用…
    在这里插入图片描述

手工87.9,双流网络88.0,本文在双流网络上做的所以效果要比他好,88.2,88.6,只好了1点点,LSTM带来的提升非常有限

在这里插入图片描述
朱毅老师对此现象的解释:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Early fusion方向【Convolutional fusion】

关键词:fusion
这篇文章,非常细致地讲了,如何做这种 fusion,如果在两个流之间做fusion

在这里插入图片描述

Spatial fusion【空间维度】

在特征图上

在这里插入图片描述

接下来的问题是说,到底在网络的哪个部分做fusion呢?
到底是偏前面的层conv1,conv2,还是偏后面的conv4,conv5?还是最后的分类层fc6,fc7?

两个方法:
在这里插入图片描述

如何做temporal fusion?

在这里插入图片描述

最后作者得出的方案:

在这里插入图片描述

效果:

  • 尝试1:backbone 换成 VGG,提升还是明显的

在这里插入图片描述

这篇文章的贡献: 1. 详尽的消融实验探索;2. 使用了3D CNN,变相推动3D CNN的发展
【启发:一篇文章的效果不只是看结果好不好,一些探索实验能否给后来研究者一些探索,启发等… 和第一篇论文很像,虽然结果不好,但是做了很多 探索实验】

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

长视频 【TSN temporal segment 分段的思想,good work】

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

方法:分段

想法非常简单, 给 视频分段 的思想,good work

在这里插入图片描述

好用的技巧:

  • 光流 模型初始化【RGB做平均复制20份】:
    • 在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 第二个技巧:模型正则化
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  • 第3个技巧:数据增强

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
效果:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

在这里插入图片描述


没整理完,,,转移到本地了,加上whisper的翻译…

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值