视频数据增强 - VideoMix: Rethinking Data Augmentation for Video

最新推荐文章于 2024-09-14 07:08:16 发布

清欢守护者

最新推荐文章于 2024-09-14 07:08:16 发布

阅读量2.5k

点赞数 1

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/113442209

版权

CV 专栏收录该内容

98 篇文章 21 订阅

订阅专栏

本文介绍了VideoMix，一种针对视频数据增强的方法，扩展了图像增强的CutMix技术。该方法通过融合两个视频片段，解决了视频分类模型过拟合问题，使模型能学习到动作本身和位置信息。实验表明VideoMix在多个数据集上提高了性能，其中空间融合效果最佳。论文提供了对视频数据增强的新视角，并为后续研究提供了启示。

摘要由CSDN通过智能技术生成

文章目录

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息
- 领域：视频数据增强
- 作者单位：NAVER AI LAB（韩国最大搜索引擎公司）& 韩国科学技术院
- 发表时间：2020.12
一句话总结：印象中第一篇视频数据增强工作

1. 要解决什么问题

当前的视频分类模型存在过拟合的问题
- 模型学到的可能是背景或周围物体信息，而没有关注动作本身，这导致模型进入局部最优解。
目前的数据增强工作在静态图像领域，视频领域几乎没有什么工作。

2. 用了什么方法

本文提出了一种VideoMix方法
- 此方法对图像数据增强CutMix的扩展。
VideoMix的基本原理很简单
- 输入数据融合两个视频片段，输出结果也是融合两个视频片段。
- 输入数据怎么融合？
  - 与Mixup不同，Mixup是将两个视频片段的每个像素点按照一定比例融合。VideoMix是每个像素点要么属于片段A要么属于片段B。
  - 具体两个片段怎么拼成一个，后文介绍。
- 输出结果怎么融合？
  - 就是两个片段原始标签的加权和。权重就是两个片段各自的比例。
  - 结果是one-hot形式的。
- 详细定义可以参考下图原文，说得很清楚了
那两个视频片段要怎么融合呢？
- 三种融合方式，Spatial/Temporal/Spatio-Temporal，其实文字说起来不清楚，下面的图更清楚。
  - Spatial，空间融合，即融合后clip的每一帧都包含两个原始clip的信息。
  - Temporal，时间融合，即融合后clip的每一帧，要么属于输入clip A，要么属于输入 clip B
  - Spatio-Temporal，时空融合，即将一个clip B融合到Clip A的部分帧中。这个方式等价于与前文中提到的，“将图像增强领域的CutMix直接引入视频”。
实现细节：
- 需要随机选择区域，具体选择方法参考了CutMix
- 随机选择的参数包括中心点坐标以及长长宽。
- 更多细节参考论文原文
在部分应用中，很难直接对输入视频进行操作（比如已经实现提取好特征，要直接对特征进行处理）。这时候建议使用Tempoal VideoMix。

3. 效果如何

论文中的一些结论
- 效果如何？从训练结果看，val loss减少，val accuracy增加。
- VideoMix之后学到了什么信息？作者认为不仅学到了动作本身，还学到了动作发生的位置。
  - 如何验证？就是通过卷积神经网络可视化来实现。
评估了图像层面的数据增强方式直接应用到视频领域的效果
对比了VideoMix的集中不同的融合方式，空间融合效果最好
实验结果表明，在Kinetics-400/THUMOS14/AVA上，VideoMix都能提点