视频理解论文精读笔记

最新推荐文章于 2024-07-29 00:03:11 发布

irony_202

最新推荐文章于 2024-07-29 00:03:11 发布

阅读量467

点赞数

文章标签：深度学习 transformer 人工智能

本文链接：https://blog.csdn.net/irony_202/article/details/125313808

版权

在这里插入图片描述
视频理解领域发展历程：
1.2D时代：在深度学习出来之后就有将深度学习用于视频理解领域的工作了（deepvideo），但效果很差，甚至远远不如手工提特征的IDT，于是有人想到了将运动的轨迹（光流）与一个静态图特征提取网络相叠加，因此就有了双流网络，在此基础上也有许多人做了其他工作，如将双流网络的后混改为前混（early fusion）；改变双流网络的主干网络等等。
2.3D时代：对于视频理解，一个很直觉的操作就是将原来用于识别图片的网络增加一个维度（时间），用于视频理解任务，因此就有了3D网络的想法，第一个工作是C3D，就是直接将2D卷积神经网络增加一个维度用于视频理解，但效果并不好，有人认为是因为网络初始化不好导致模型不好训练，于是有了I3D网络：在用imagenet数据集预训练了一个2D模型后直接扩展成3D模型，效果不错，因此也有了后续工作，如将主干网络改成resnet的R3D等；将3D时空特征分开处理以减少3D模型的内存显存占用量的R（2+1）D等、为了更好地利用视频里的时序信息，采用LSTM、non-local等结构的LTC、T3D、non-local模型等、利用生物学知识，将输入拆分为一个快特征和一个慢特征输入的slowfast模型等，最后X3D由于其模型可以自己搜索效果好的网络模型，参数量也更少，终结了3D网络的探索。
3.transformer时代：由于vision transformer的诞生，就产生了基于vit的在视频理解上的工作，有timesformer、vidtr、vivit、mvit等，其核心思想基本相同，都是将视频输入3维的特征拆分为时间和空间来单独做自注意力，或拆分为局部和全局做自注意力，主要是为了降低显存的占用，同时也没有掉精度，并且timesformer训练和推理的开销都很低。有了video transformer，视频理解可以尝试更长时间的任务。
视频理解领域的前景：
视频本身作为一个多模态的输入，就是一个很好的视觉特征，目前视频理解领域的工作还在起步阶段，能做的还有很多，如利用多模态输入对比学习得到一个很好的特征（如图片和文本交叉领域的CLIP）等。