视频理解经典论文简要笔记 ( idea / 网络结构 / 创新点)

alterego2380

已于 2022-08-23 12:24:26 修改

阅读量585

点赞数 1

分类专栏：机器学习深度学习文章标签：深度学习人工智能计算机视觉神经网络机器学习

于 2022-08-23 12:19:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56607174/article/details/126482039

版权

机器学习同时被 2 个专栏收录

8 篇文章 10 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

本文总结了视频理解领域的关键论文和方法，包括双流网络、TSN、C3D、I3D、non-local、R(2+1)D、slowfast、ViT以及Timesformer等。这些方法通过融合空间和时间信息，利用自我注意力机制，提升了视频内容的理解能力。其中，预训练模型、数据增强策略和不同类型的融合方式对于模型性能至关重要。

摘要由CSDN通过智能技术生成

简介

本文是对视频理解论文串讲（上）和视频理解论文串讲（下）的笔记，推荐去看原视频以及原论文，可以对近几年来视频理解领域的经典论文和方法有一个较为全面、简要的insight。

目录

简介
DeepVideo
Two-stream
Beyond-short-snippets
Convolutional fusion
TSN
C3D
I3D
non-local
R(2+1)D
slowfast
ViT
Timesformer
MViT
MViTv2

DeepVideo

在这里插入图片描述

2D卷积，3种fusion

在这里插入图片描述

多分辨率(双流)

Two-stream

在这里插入图片描述

双流(single frame:空间，光流：时间)，最后做fusion

Beyond-short-snippets

在这里插入图片描述

双流网络+尝试各种pooling, conv pooling效果最好, LSTM做特征融合

在这里插入图片描述

LSTM做特征融合

Convolutional fusion

在这里插入图片描述

双流网络+early fusion(空间流和时间流)

在这里插入图片描述

early fusion(空间流和时间流)

TSN

在这里插入图片描述

双流网络+把视频切开(分别送入双流网络，空间流和时间流输出分别做fusion，最后空间流和时间流late fusion(加权平均))

trick:

用ImageNet预训练的模型处理光流，将第一层对3个channel做平均，再复制20遍，效果特别好，被广泛使用
提出partial BN: 第一层BN打开，其他所有BN冻住（由于第一层变了），被广泛使用 (数据集太小， BN容易过拟合, )
数据增强：corner cropping（在边角crop） and scale-jittering（改变长宽比），被广泛使用

C3D

在这里插入图片描述

3D版的VGG

I3D

在这里插入图片描述

膨胀的3D卷积网络，inflated操作，利用在2D卷积网络上预训练好的参数

non-local

在这里插入图片描述

把self-attention（时空注意力）用于视频理解

R(2+1)D

在这里插入图片描述

在这里插入图片描述

空间2D卷积+时间1D卷积

slowfast

在这里插入图片描述

在这里插入图片描述

slow: 低帧率，小输入，大网络，空间信息

fast: 高帧率，大输入，小网络，时间信息

ViT

在这里插入图片描述

将图片切成16x16大小的一系列token，作为输入直接送入标准的transformer

借鉴BERT的想法，用特殊的*token的输出用作分类，或者和CNN一样用GAP

这里的patch embedding层就是一个全连接层

Timesformer

在这里插入图片描述

在这里插入图片描述

把ViT运用到视频领域

5种不同的时空注意力拆分，主打第3种

MViT

在这里插入图片描述

输入为图片的MViT：空间分辨率减少，通道数增加

在这里插入图片描述

在Pool层（一个stage中的第一个MHPA中）降低时空分辨率，在MLP输出层（一个stage的最后一个MLP）增加D（2倍）

在这里插入图片描述

每个stage最后的MLP后的残差连接需要加一层Linear匹配维度

Frame shuffling，准确率降低，说明较好地对时间进行了建模

MViTv2

在这里插入图片描述

改进绝对位置嵌入为相对位置嵌入

残差池化连接，以增加信息流，加快池化注意块的训练

Pooling attention and window attention，减少计算复杂度

Hwin，计算一个窗口内的局部注意力，除了最后三个阶段的最后一个块，并将其输入 FPN

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
视频理解经典论文简要笔记 ( idea / 网络结构 / 创新点)

近几年来（深度学习时代）视频理解领域的经典论文和方法较为全面、简要的 insight
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

alterego2380 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。