学习笔记（六）A Comprehensive Study of Deep Video Action Recognition综述笔记

woker9527

已于 2023-10-15 21:49:31 修改

阅读量90

点赞数

文章标签：学习笔记深度学习

于 2023-10-13 21:33:35 首次发布

本文链接：https://blog.csdn.net/LYHRM/article/details/133818291

版权

记：今天终于把综述看完了，可以开始写论文的笔记了，英语任务仍然还是完成了单词和听力

论文笔记：
对象：视频的动作识别（视频理解中最重要的任务之一是了解人类的行为。它有许多真实世界的应用，包括行为分析、视频检索、人机交互、游戏和娱乐。人类行为理解包括识别、定位和预测人类行为。识别视频中人类动作的任务称为视频动作识别）
文章思路：介绍视频动作识别——解析17个关于数据集——主要挑战——从手工制作的特征到CNN——使用双流网络——3DCNN——高效的视频建模方法——Miscellaneous 杂项（轨迹、秩池化、压缩视频、帧剪辑采样、视频节奏）——模型的评估方案和具体数据集比较——未来方向（数据增强、视频域自适应DA、神经结构搜索、发展基于2D卷积的高效网络体系结构、新数据集、视频的对抗训练、零样本动作识别、弱监督视频动作识别、自我为中心的行为识别、多模态、自监督视频表示学习）
章节简介：
第一节：主题介绍
第二节：现存流行的数据集和挑战
第三节：基于深度学习进行视频识别的进展
第四节：模型的评估方案和具体数据集比较
第五节：未来方向
三个趋势：①关于双流网络的开创性论文开始，通过在光流流上训练卷积神经网络，增加了第二种路径来学习视频中的时间信息
②使用3D卷积核来建模视频时间信息
③将计算效率扩展到更大的数据集，以便在实际应用中采用
在这里插入图片描述
现存挑战：
*~~数据集方面~~ *：训练动作识别模型定义标签空间是非常重要的。这是因为人类行为通常是复合概念，这些概念的层次结构没有明确定义。
动作识别标注视频很费力(例如，需要观看所有的视频帧)，并且不明确(例如，很难确定动作的确切开始和结束)。
一些流行的基准数据集(如Kinetics系列)只发布视频链接供用户下载，而不发布实际视频，导致对方法的评估基于不同的数据。
~~建模方面：~~ 捕捉人类行为的视频既有强烈的类内变化，也有类间变化。
识别人类行为需要同时理解短期特定动作的运动信息和长期时间信息。我们可能需要一个复杂的模型来处理不同的视角，而不是使用单一的卷积神经网络
训练和推理的计算成本都很高，阻碍了动作识别模型的开发和部署。
进展详述：
手工制作特征：在2015年以前，特点：准确性高、鲁棒性好，适用于改进密集轨迹（IDT），但是因为其计算成本难以部署和扩展
2D CNN：深度学习的发展，在每一个视频帧上单独使用一个2D CNN模型，并且研究了几种时间连接模式来学习视频动作识别的时空特征（后期、早期、慢融合）
双流网络：寻找合适的方式描述帧之间的关系对于提高基于CNN视频动作识别很关键，光流（Optical flow，它是由观察者和场景之间的相对运动引起的视觉场景中物体、表面和边缘的明显运动模式。）光流能够准确地描述每个动作的运动模式。与RGB图像相比，使用光流的优点是提供了正交信息，光流可以有效去除静止背景，与使用原始RGB图像作为输入相比，学习问题更简单
基础：双流网络，具体地说，将估计流的水平和垂直分量(即，x方向和y方向上的运动)线性地重新缩放到[0,255]范围，并使用JPEG进行压缩。输出对应于图中所示的两个光流图像。压缩后的光流图像将被连接为具有H×W×2L维度的时间流的输入，其中H、W和L表示视频帧的高度、宽度和长度。最后，将两个流的预测得分求平均，得到最终的预测结果。
在这里插入图片描述
光流网络的延展：
使用更深层次的网络架构（双流网络使用相对浅的网络体系结构。因此，双流网络的自然扩展涉及使用更深层次的网络。交叉通道初始化、同步批量归一化、角点裁剪和多尺度裁剪数据增强、大丢失率等一系列好的做法，以防止更深层次的网络过度拟合）、双流融合（由于双流网络中有两个流，因此需要一个阶段来合并两个网络的结果以获得最终的预测。这一阶段通常被称为时空融合步骤）、循环神经网络（CNN-LSTM及其衍生）、基于分段的方法（双流网络的弱点：无法捕获远程的时间信息。TSN首先将整个视频分成若干段，这些段沿时间维均匀分布。然后TSN在每个片段中随机选择一个视频帧，通过网络转发。在这里，网络共享来自所有段的输入帧的权重。最后，通过分段共识从采样的视频帧中聚合信息。分段共识可以是平均池化、最大池化、双线性编码等操作。从这个意义上说，TSN能够模拟长程时间结构，因为模型是从整个视频中看到的内容。此外，这种稀疏采样策略降低了长视频序列的训练成本，但保留了相关信息。）、多流网络（其他因素也可以帮助视频动作识别，如姿势、物体、音频和深度）
3D CNN ：
从概念上理解视频的一个简单方法是把它看成一个具有两个空间维度和一个时间维度的三维张量.因此，这导致使用3D CNN作为处理单元来建模视频中的时间信息。
3DCNN并不是在取代双流网络，它们也不是相互排斥的。他们只是使用不同的方式来模拟视频中的时间关系。
I3D (3D CNN和两流网络的结合)
从2D到3D CNN的映射,把2D CNN 的进展衍生到3D CNN中
统一2D和3DCNN，三维分解思想（一个3D内核(例如,3×3×3)两个独立的操作,可以映像2 d空间卷积(1×3×3)和1 d时间卷积(3×1×1)），简化3DCNN的另一种方式是在单个网络中混合2D和3D卷积
长范围时序建模（在深度网络的后期阶段，特别是对于相隔很远的帧，有用的时间信息可能会丢失）引入Non-local是一种类似于self-attention
提高3D CNN的效率(即在GFLOPS、模型参数和延迟方面)基于信道的可分离卷积、既有慢通路又有快通路的高效网络SlowFast，慢通道在低帧率下工作以捕获详细的语义信息，而快通道在高时间分辨率下工作以捕获快速变化的运动，与双流网络不同，因为这两条路径被设计用来模拟不同的时间速度，而不是空间和时间建模
高效视频建模:
因数据量庞大
Flow-mimic方法，双流网络的主要缺点之一是对光流的需求。预计算光流计算成本高，存储要求高，且不能用于视频动作识别的端到端训练。MotionNet（以一种无监督的方式学习运动信息，当与时间流连接时，是端到端可训练的）、PAN（通过计算连续特征映射之间的差异来模拟光流特征）、MARS和D3D（使用知识蒸馏将两个流网络合并为一个流、通过调整空间流来预测时间流的输出）
没有三维卷积的时序建模，TSM（TSM将移位操作[228]扩展到视频理解。它沿着时间维度移动部分通道，从而促进相邻帧之间的信息交换。为了保持空间特征学习能力，他们将时间移模块放入残差分支的残差块中。因此，原始激活中的所有信息在经过时间变换后仍可通过身份映射访问）