视频理解经典论文简要笔记 ( idea / 网络结构 / 创新点)

本文总结了视频理解领域的关键论文和方法,包括双流网络、TSN、C3D、I3D、non-local、R(2+1)D、slowfast、ViT以及Timesformer等。这些方法通过融合空间和时间信息,利用自我注意力机制,提升了视频内容的理解能力。其中,预训练模型、数据增强策略和不同类型的融合方式对于模型性能至关重要。
摘要由CSDN通过智能技术生成

简介

本文是对 视频理解论文串讲(上)视频理解论文串讲(下) 的笔记, 推荐去看原视频以及原论文,可以对近几年来视频理解领域的经典论文和方法有一个较为全面、简要的insight。

DeepVideo

在这里插入图片描述

2D卷积,3种fusion


在这里插入图片描述

多分辨率(双流)

  • Two-stream

在这里插入图片描述

双流(single frame:空间, 光流:时间), 最后做fusion

  • Beyond-short-snippets

在这里插入图片描述

双流网络+尝试各种pooling, conv pooling效果最好, LSTM做特征融合


在这里插入图片描述

LSTM做特征融合

  • Convolutional fusion

在这里插入图片描述

双流网络+early fusion(空间流和时间流)


在这里插入图片描述

early fusion(空间流和时间流)

  • TSN

在这里插入图片描述

双流网络+把视频切开(分别送入双流网络,空间流和时间流输出分别做fusion, 最后空间流和时间流late fusion(加权平均))

trick:

  1. 用ImageNet预训练的模型处理光流, 将第一层对3个channel做平均,再复制20遍,效果特别好,被广泛使用
  2. 提出partial BN: 第一层BN打开,其他所有BN冻住(由于第一层变了),被广泛使用 (数据集太小, BN容易过拟合, )
  3. 数据增强:corner cropping(在边角crop) and scale-jittering(改变长宽比), 被广泛使用

  • C3D

在这里插入图片描述

3D版的VGG

  • I3D

在这里插入图片描述

膨胀的3D卷积网络,inflated操作,利用在2D卷积网络上预训练好的参数

  • non-local

在这里插入图片描述

把self-attention(时空注意力)用于视频理解

  • R(2+1)D

在这里插入图片描述

在这里插入图片描述

空间2D卷积+时间1D卷积

  • slowfast

在这里插入图片描述

在这里插入图片描述

slow: 低帧率,小输入,大网络,空间信息

fast: 高帧率,大输入,小网络,时间信息

  • ViT

在这里插入图片描述

将图片切成16x16大小的一系列token,作为输入直接送入标准的transformer

借鉴BERT的想法,用特殊的*token的输出用作分类,或者和CNN一样用GAP

这里的patch embedding层就是一个全连接层

  • Timesformer

在这里插入图片描述

在这里插入图片描述

把ViT运用到视频领域

5种不同的时空注意力拆分,主打第3种

  • MViT

在这里插入图片描述

输入为图片的MViT:空间分辨率减少,通道数增加


在这里插入图片描述

在Pool层(一个stage中的第一个MHPA中)降低时空分辨率,在MLP输出层(一个stage的最后一个MLP)增加D(2倍)

在这里插入图片描述

每个stage最后的MLP后的残差连接需要加一层Linear匹配维度

Frame shuffling, 准确率降低,说明较好地对时间进行了建模

  • MViTv2

在这里插入图片描述

改进绝对位置嵌入为相对位置嵌入

残差池化连接,以增加信息流,加快池化注意块的训练

Pooling attention and window attention, 减少计算复杂度

Hwin, 计算一个窗口内的局部注意力,除了最后三个阶段的最后一个块,并将其输入 FPN

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

alterego2380

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值