DeepMotion 的视频输入与预处理模块是整个动作捕捉和 3D 追踪流程的基础。该模块负责将用户上传的视频进行一系列处理,包括视频解码、帧提取、图像预处理等,为后续的深度学习模型提供高质量的输入数据。
包括:
1.视频解码与帧提取
2.图像预处理
- 去噪
- 图像增强
- 归一化
- 数据增强
3.数据标注与对齐
4.视频帧序列构建
5.模型详解(每个预处理步骤的算法模型及公式推导)
1. 视频解码与帧提取
1.1 工作原理
视频文件本质上是由一系列图像帧(Frame)组成的动态图像序列。DeepMotion 首先需要将用户上传的视频文件解码,并提取出每一帧的图像数据。
1.2 实现细节
-
视频解码:
- DeepMotion 使用 FFmpeg 等开源库进行视频解码。FFmpeg 支持多种视频格式(如 MP4, AVI, MOV 等),能够高效地解码视频文件。
- 视频解码过程将视频文件转换为一系列图像帧,并提取出每一帧的时间戳。
-
帧提取:
- 根据视频的帧率(FPS, Frames Per Se