学习笔记（七）A Comprehensive Study of Deep Video Action Recognition综述笔记

woker9527

已于 2023-10-15 21:49:17 修改

阅读量53

点赞数 1

文章标签：学习笔记深度学习

于 2023-10-15 21:48:19 首次发布

本文链接：https://blog.csdn.net/LYHRM/article/details/133847491

版权

记：接上篇的论文笔记，论文：A Comprehensive Study of Deep Video Action Recognition

Miscellaneous 杂项
视频动作识别的其他几个方向
基于轨迹的方法：TDD(一种基于轨迹约束的汇集算法，将深层卷积特征聚合成有效的描述符,轨迹被定义为在时间维度中跟踪像素的路径)、将独立子空间分析(ISA)和密集轨迹结合到标准的双流网络中，展示了数据无关和数据驱动两种方法的互补性
秩池化：来为视频中的时间信息建模，称为秩池(也称为学习到秩)。VideoDarwin工作（它使用一个排序机器来学习外观随时间的演变，并返回一个排序函数。排序函数应该能够对视频帧进行时间上的排序，因此他们使用这个排序函数的参数作为一个新的视频表示）Fernando为了将秩池化适应深度学习，引入了可微秩池化层来实现端到端特征学习。
压缩视频动作识别：视频压缩方法通常通过重复使用来自另一帧(即，I帧)的内容来存储一帧，并且由于相邻帧相似的事实而仅存储差异(即，P帧和B帧)。这里，I帧是原始RGB视频帧，P帧和B帧包括用于存储差值的运动矢量和残差。
帧剪辑采样：采样信息最丰富的视频帧/剪辑，以提高性能和使模型在推理过程中更高效。
Visual tempo 视觉节奏：一个用来描述动作速度的概念，视觉节奏也被广泛用于自监督视频表征学习，因为它可以自然地提供监督信号来训练深度网络
评估和基准测试
对于2D CNN，从紧随之后的每个视频中均匀采样25帧。对于每一帧，我们通过裁剪4个角和1个中心，水平翻转它们，并在样本的所有裁剪上平均预测分数(在Softmax操作之前)，执行十裁剪数据增强
对于3DCNN，30-视图策略，即从跟随[219]的每个视频中均匀采样10个片段。对于每个视频片段，我们执行三个裁剪数据增强。具体地说，我们将较短的空间边缩放到256像素，并采用256×256的三个裁剪来覆盖空间维度并对预测得分进行平均
未来工作
数据增强：图像识别领域已经提出了许多数据增强方法,视频动作识别仍然采用2015年之前的方法
视频域适应：领域自适应(DA)被广泛研究以解决领域迁移问题，视频模型跨数据集或领域的泛化能力还很少被探索
神经结构搜索：在图像识别领域提出了一些有效的架构搜索方法，将高效的2D cnn和高效的搜索算法结合
高效模型开发：发展基于2D卷积的高效网络体系结构，图像分类领域中提出的方法可以很容易地适用于视频动作识别，例如模型压缩、模型量化、模型剪枝、分布式训练
新数据集：对于视频动作识别，大多数数据集偏向于空间表示，即大多数动作可以通过视频内的单帧来识别，而不考虑时间运动。因此，在长期时间建模方面需要一个新的数据集来推进视频理解
视频对抗攻击：通过在原始图像上插入少量噪声来计算的对抗样本可能会导致错误的预测。然而，在攻击视频模型方面所做的工作有限。，这个方向很有用，因为很多公司都提供了视频分类、异常检测、样本检测、人脸检测等服务的API。此外，本主题还与DeepFake视频检测相关。因此，研究攻击和防御方法对于确保这些视频服务的安全至关重要
零样本动作识别：它的目标是将学习到的知识转移到以前未见过的类别中，它们大多遵循一个标准的框架，即首先使用预先训练好的网络从视频中提取视觉特征，然后训练一个联合模型，将视觉嵌入映射到语义嵌入空间。通过这种方式，可以将模型应用到新类中，方法是找到嵌入模型输出最近的测试类。
弱监督视频动作识别、细粒度视频动作识别：和数据集相关
以自我为中心的行为识别 Egocentric action recognition：一些论文利用对象检测特征提供精细的对象上下文来改进以自我为中心的视频识别。另一些则结合时空注意或凝视注释来定位相互作用的物体，以便于动作识别。与第三人称动作识别类似，多模态输入(如光流和音频)已被证明在自我中心动作识别中是有效的
多模态：多模态视频理解有两大类。第一组方法使用多模态，如场景、物体、运动和音频来丰富视频表征。在第二组中，目标是设计一个模型，利用模态信息作为训练前模型的监督信号
自监督视频表示学习 Self-supervised video representation learning：以时间维度来制作借口任务，用于此目的的信息完成任务包括预测混洗帧和视频剪辑的正确顺序，增加的时间轴还可以在设计实例区分借口时提供灵活。视频中的时间连续性激发研究人员围绕通信设计其他借口任务

注：Self-Supervised Learning，又称为自监督学习，是无监督学习的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks)，如目标检测等。其主要的方式就是采用无标注的数据集，通过自己监督自己实现类似于GPT一样的可以应用于下游任务的编码器。

woker9527

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
学习笔记（七）A Comprehensive Study of Deep Video Action Recognition综述笔记

零样本动作识别：它的目标是将学习到的知识转移到以前未见过的类别中，它们大多遵循一个标准的框架，即首先使用预先训练好的网络从视频中提取视觉特征，然后训练一个联合模型，将视觉嵌入映射到语义嵌入空间。基于轨迹的方法：TDD(一种基于轨迹约束的汇集算法，将深层卷积特征聚合成有效的描述符,轨迹被定义为在时间维度中跟踪像素的路径)、将独立子空间分析(ISA)和密集轨迹结合到标准的双流网络中，展示了数据无关和数据驱动两种方法的互补性。这里，I帧是原始RGB视频帧，P帧和B帧包括用于存储差值的运动矢量和残差。
复制链接

扫一扫