深度在线融合视频稳定化-实时在线的AI视频稳频视频防抖的天花板

gwailee1

已于 2024-07-17 17:26:22 修改

阅读量635

点赞数 12

文章标签：音视频人工智能

于 2024-07-17 14:44:19 首次发布

本文链接：https://blog.csdn.net/gwailee1/article/details/140492165

版权

深度在线融合视频稳定化-实时在线的AI视频稳频视频防抖的天花板

【文章底部提供AI视频防抖源码、训练数据集和模型下载链接】
在这里插入图片描述

作者：沈振梅；傅浩（Google）；魏胜磊（Google）；李嘉楷（Google）；李颖玉；Bueh 克里斯

摘要：我们提出了一种基于深度神经网络（DNN）的解决方案，它结合了传感器数据（陀螺仪）和图像内容（光流）进行无监督学习视频稳定。网络将光流与真实的/虚拟相机姿态历史融合到一个联合运动表示中。接着，长短期记忆（LSTM）单元推断新的虚拟相机姿态，用于生成稳定视频帧的变形网格。我们采用相对运动表示以及多阶段训练策略，在无需任何监督的情况下优化模型。据我们所知，这是第一个同时利用传感器数据和图像内容的深度学习视频稳定化方案。通过对比实验和定量评估，我们验证了提出的框架，并通过用户研究证明了我们的方法优于当前最先进的解决方案。请访问我们的网站查看视频结果、代码和数据集。

1.简介

手持设备录制的视频常常会晃动。随着便携式智能手机录像、直播和电影制作的普及，对有效且高效的视频稳定化的需求日益重要，以提升整体视频质量。

然而，高质量的稳定化仍然面临复杂相机运动和场景变化的挑战。现有的视频稳定系统通常可以分为基于图像和基于传感器的方法。基于图像的方法通过从稀疏图像特征（[7,14,18]）或密集光流（[4,29,31,32,34]）中提取相机运动来输出平滑的摄像头路径。这些方法提供了非线性的运动补偿灵活性。然而，当出现诸如视差等复杂运动，或者场景中缺乏可靠特征时，它们往往失败，并因缺乏稳定性约束而产生明显的非刚体扭曲和伪影。基于传感器的方法利用运动传感器数据，如陀螺仪和加速度计，获取精确的运动信息，能够纠正效果出色的扭曲，但它们局限于平面稳定化，对于近景场景可能导致剩余的视差运动。

在此工作中，我们提出一个高效深融合视频稳定（deep-FVS）框架，将两种运动源（图像内容与运动传感器）融汇，同时利用两者的优点。一方面，网络输出单个虚拟摄像头姿态，而非密集的变形流，通过将基于传感器的真实摄像头运动朝向这个虚拟姿态进行变形，自然保持了运动的刚性，并且能修正滚屏失真，无明显晃动现象。另一方面，网络学习同时最小化摄像头姿态平滑性和光流损失，从而自动适应不同场景（如深度变化），减小剩余运动。我们的网络采用无监督学习训练，精心设计的损失函数并采用多阶段训练策略。

鉴于现有的数据集（[18,29]）并未记录传感器数据，我们构建了一个新的视频数据集，包括带有陀螺仪和光学图像稳定（OIS）数据的训练和评估视频。这个数据集涵盖了各种场景，覆盖了不同的光照条件和摄像机主体运动。通过校准准确地同步了传感器数据和视频帧。客观和主观评价都显示出，我们的方法在生成更稳定且无扭曲的结果上，超越了当前最先进的解决方案。

本文的主要贡献有：
• 首个融合运动传感器数据和光流的深度神经网络为基础的在线视频稳定化框架。
在这里插入图片描述
图1 传统光流法、机器学习法、Deep-FVS比较

2.相关工作

传统方法：经典的视频稳定算法通常包括运动估计、相机路径平滑和视频帧映射/渲染步骤[23]。一些解决方案还会校正滚筒快门效应[6, 10, 12]。这些方法根据运动估计可以分为3D、2D和2.5D方法。3D方法建模相机姿态并在三维空间中估计平滑的虚拟摄像机轨迹。为了获取6自由度（6DOF）的相机姿态，研究者们采用过多种技术，如投影三维重建[2]、深度相机[17]、结构光运动[14]和光场[27]。尽管3D方法可以处理视差并产生高质量结果，但它们通常涉及昂贵的计算成本或需要特定硬件设备。

2D方法将相机运动表示为一系列二维仿射或透视变换系列[7, 18, 22]，通过稳健特征跟踪和异常检测来获取可靠估计[33]。Liu等人[19]利用光流替换特征轨迹来处理空间变运动。早期方法应用低通滤波器平滑单个运动参数[3, 22]，而最近的研究则采用L1优化[7]或与捆绑的局部相机路径的联合优化[18]。还有一些混合2D-3D方法利用子空间约束[15]和共轭线性原理[5]。Zhuang等人[35]通过融合陀螺仪的三维旋转，并基于特征匹配稳定剩余的二维运动。

这些方法通常离线处理视频，不适合实时流媒体和移动场景。Liu等人[16]提出了具有单帧延迟的MeshFlow运动模型，用于在线视频稳定。在[13]中开发了一个基于OIS和EIS的移动端在线解决方案。在本工作中，我们利用OIS、陀螺仪和光流来学习一个深度网络进行稳定。我们的在线方法仅有10帧延迟，无需针对每个视频进行优化。基于学习的方法。随着深度学习在图像识别领域的成功[8, 20, 24]，深度神经网络已被应用于各种计算机视觉任务并达到了最先进的性能。然而，基于深度学习的视频稳定方法仍不受重视，主要原因是缺乏合适的训练数据。Wang等人[29]收集了DeepStab数据集，包含60对稳定/不稳定视频，训练深度CNN预测用于映射视频的网格。PWStableNet[34]不预测低分辨率网格，而是学习密集的二维变形字段以稳定视频。Xu等人[30]训练生成对抗网络生成平稳帧作为指导，然后使用空间变换网络提取仿射变换进行视频帧的变形。Yu和Ramamoorthi[31]以光流为输入，优化深度网络的权重，为每段视频生成变形场。他们进一步训练一个稳定网络，可以在没有优化的情况下推广到测试视频[32]。Choi等人[4]学习帧插值模型，迭代地将输入视频插值为稳定的视频，而无需裁剪。

基于学习的方法依赖于视频内容和光流来稳定视频，其性能很大程度上取决于训练数据，对于大运动时可能会出现明显的失真（如跑步）。相比之下，我们利用陀螺仪补偿相机运动，并利用光流矫正来自场景几何的剩余运动。
在这里插入图片描述
图2.deep-FVS模型流程图

3.深度融合稳频

我们的方法概述如图2所示。首先，我们处理陀螺仪和光学图像稳定器(OIS)读数，以便在

最低0.47元/天解锁文章

gwailee1

关注

12
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
深度在线融合视频稳定化-实时在线的AI视频稳频视频防抖的天花板

手持设备录制的视频常常会晃动。随着便携式智能手机录像、直播和电影制作的普及，对有效且高效的视频稳定化的需求日益重要，以提升整体视频质量。然而，高质量的稳定化仍然面临复杂相机运动和场景变化的挑战。现有的视频稳定系统通常可以分为基于图像和基于传感器的方法。基于图像的方法通过从稀疏图像特征（[7,14,18]）或密集光流（[4,29,31,32,34]）中提取相机运动来输出平滑的摄像头路径。这些方法提供了非线性的运动补偿灵活性。
复制链接

扫一扫