【1】视频稳像——调研

最新推荐文章于 2025-05-16 23:15:06 发布

_helen_520

最新推荐文章于 2025-05-16 23:15:06 发布

阅读量4k

点赞数 3

本文链接：https://blog.csdn.net/haronchou/article/details/108639297

版权

0. 写在前面

需求分析：

当前项目情况为，设备固定位置安装，360度旋转采集图像，2s刷新一圈全景图像。当前问题为：设备安装于铁塔高处时，由于风力过高导致铁塔本身晃动导致的图像抖动。若是底座稳定，即安装于建筑物上，由于风力导致的图像稳定由控制端解决了抗风问题。但是若底座晃动，设备端已无法解决，需要后期图像处理加以解决。

应用背景&需求来源：基座晃动导致的图像晃动，对目标价检测和背景建模带来很大的影响。因此是否能通过电子稳像使得图像出来后能够稳像呢？这类场景在PTZ、UAV中都会遇到。但是在我们的场景中，我们需要real-time。这个能怎么办？

online, real-time video stabilization.

能不能很快的的做到帧对帧之间的配准？
来了一个新的帧之后，里面能够进行裁剪和平移多少的判断？
从而保持背景稳定呢？
目的：维持一个稳定的背景，维持一个稳定的视角。how to do it?

需求（1）：在晃动的情况下(帧间差异较大，方向和幅度随机)还需要检测到行人等小目标！
- 方向一：Tiny Object Detection，用搜索的方法来做。受限于当前的训练能力和落地能力，周期较长。
- 方向二：视频稳像。
  - （1）精度要求：由于背景建模能够容纳的动态范围有限，所以既要能对小目标检测灵敏，又要能容纳一定程度的晃动对晃动不敏感。稳像要做到几个pixel内的鲁棒性，要求是很高的。
  - （2）场景复杂，难以提取出有效特征，特别是能表征稳定背景的特征。
  - （3）晃动程度不一，视频抖动。且帧间差异大，表现为全景帧中帧间差异大。

稳像方案有几种：光学稳像、机械稳像、电子稳像。电子稳像的方法主要有两个方向：

一、经典电子稳像技术：全局运动估计（相机路径估计）、运动补偿（相机路径平滑）和图像生成（稳定帧合成）。
- 运动估计方法：光流法、特征点法（SIFT、边缘、局部运动矢量进行块匹配）
- 运动补偿：基于参数滤波，如高斯滤波、Kalman滤波；基于轨迹平滑
- 图像生成
难点：
- （1）很难精确的获得准确的全局运动。运动估计是通过特征点等中间桥梁关联起来的
- （2）运动补偿总是存在误差累积，难以很少的去抖动
- （3）challenge：剧烈抖动、动态场景、多深度变化场景、多运动物体、近距离物体。
- （4）难以使用所有场景；稳像效果和效率难以兼得。稳定视频的评估没有好的评价指标
二、基于深度学习的稳像技术
- 《StableNet: Semi-Online Multi-Scale Deep Video Stabilization》香港科技大学&腾讯优图 ECCV2016
  - CNN paired-dataset，multi-scale, affine transform; no point or optical flow
  - 端到端
三、从一些相关Paper的Introduction中了解发展脉络

paper1：SEMI-ONLINE VIDEO STABILIZATION USING PROBABILISTIC KEYFRAME UPDATE AND INTER-KEYFRAME MOTION SMOOTHING 半在线视频稳像采用概率关键帧更新和帧间运动平滑

download：https://ieeexplore.ieee.org/abstract/document/7026170
ICIP2014

分类为online和offline两类算法：

offline：平滑相机路径Matsushiita；仿射变换Grundmann。offline计算了完整的运动链，所以会比较鲁棒，是最好的优化估计结果。
online：Kalman、low-pass、运动矢量积分来平滑运动轨迹
- 同时进行运动估计和平滑以实现实时稳像
- 平滑运动估计的方法就是滤波器
- 但是online的方法没有无法利用显示时刻的运动链，可能会对严重的运动和parallax changes不够鲁棒

Paper2 : Adaptively Meshed Video Stabilization 基于自适应网格的视频稳像中科大性能优于MeshFolw, Subspace等

阅读其Introduction部分：

Traditional经典方法分为三类：2D，2.5D，3D。
- 2D 特征匹配帧间变换矩阵，对相机运动进行建模。对变换矩阵进行平滑，如高斯低通滤波、粒子滤波、正则化等。CVPR2011、高斯低通滤波在2006TPAMI。
- 2.5D方法CVPR2014 SteadyFlow，ECCV2016MeshFlow
CNN based video stabilization
- wang建立了一个DeepStab数据集、有61对stable和unstable的paired video。
- CNN的方法主要是数据集不够。

Paper3:StableNet: Semi-Online, Multi-Scale Deep Video Stabilization arXiv2019

传统方法：尺度不变特征+滤波器+仿射模型描述帧间变换。高斯低通滤波、Kalman滤波、粒子滤波。Grundmann。 SteadyFlow。
Online方法：累积运动曲线积分。MeshFlow。

重点关注MeshFlow算法：

文章翻译：MeshFlow：Minimum latency online video stabilization. ECCV2016

download:https://www2.cs.sfu.ca/~pingtan/Papers/eccv16_flow.pdf

0. Abstract

许多现有的视频稳定方法是离线，即作为视频的后处理工具。某些方法可以在线稳定视频，但要么需要额外的硬件传感器（例如，陀螺仪gyroscope），要么采用单个参数化运动模型（例如，仿射affine，homography），这对于表示空间变化的运动是有问题的。

在本文中，我们提出了一种使用新型MeshFlow运动模型，仅使用一帧的延迟的在线视频稳定技术 one frame latency一帧的延迟。
MeshFlow是一个空间平滑的稀疏运动场，这个运动场只有在网格的定点处具有运动矢量
特别地，在匹配的特征点上的运动矢量被转移到它们相应的附近的网格顶点。
通过使用两个中值滤波器为每个顶点分配唯一的运动矢量来生成MeshFlow。
路径平滑是在顶点轮廓上进行的，顶点轮廓是随时间在MeshFlow中相同顶点位置收集的运动矢量。
轮廓通过一种新颖的平滑技术（即预测的自适应路径平滑（PAPS））进行自适应平滑，该技术仅使用过去的运动。

以此方式，所提出的方法不仅处理空间变化的运动，而且实时地在线工作，从而为各种智能应用（例如安全系统，机器人技术，UAV）提供了潜力。定量和定性评估表明，我们的方法可以与最新的离线方法产生可比的结果。

1. Introduction

现有的大多数视频稳定方法都可以离线稳定视频[1–5]，其中已经录制了视频。这些方法通过估计和平滑摄像机运动以获得稳定的结果来对抖动的视频进行后处理。通常，为了稳定每个时间点的运动，它们不仅需要过去的摄像机运动，而且还需要将来的摄像机运动以实现高质量的稳定。在线视频稳定化的需求不断增长，在捕获过程中，视频可以在现场稳定下来。例如，机器人或无人机通常携带无线摄像机，以便远程操作员知道情况。理想情况下，操作员希望视频一出现在监视器上就立即稳定下来，以便立即做出响应。离线稳定器虽然会产生非常稳定的结果，但不适合该应用程序。

在线稳定具有挑战性，主要有两个原因。首先，相机运动估计是困难的。一些在线稳定方法使用陀螺仪gyroscope[6,7]进行实时运动估计。但是，基于陀螺的方法只能捕获旋转运动，而不会产生平移运动。高质量的视频稳定要求处理空间变化的运动，这通常是由于视差parallax和相机平移translation所致，而视差和摄像机平移是具有深度变化的一般场景中的常见问题。空间变化的运动很复杂。它不能用单个homography表示[1,3]。最近的方法[4,5,8]将视频帧分为几个区域。然而，该策略在计算上昂贵并且阻碍了实时应用。在相机运动平滑期间加强时空连贯性进一步使这种方法复杂化。

其次，成功的摄像机运动l滤波或平滑通常需要将来的帧。一些在线视频稳定方法[9-11]使用单一homography模型并缓冲一些将来的帧。例如，[10]的方法需要至少一秒钟的延迟。需要时间缓冲器来自适应地设置平滑强度，以便避免由过度平滑引起的伪像。减少此缓冲区以备将来使用会大大降低结果。

通过解决上述两个挑战，我们设计了一种具有最小延迟的在线视频稳定方法。我们的方法只需要过去的运动即可进行高质量的运动滤波。我们提出了一个新颖的运动模型MeshFlow，它是一个空间平滑的稀疏运动场，其运动矢量仅在网格顶点处定义。它可以看作是向下采样的密集流。具体来说，我们在视频帧上放置常规2D网格。然后，我们跟踪连续帧之间的图像角，从而在每个特征位置产生运动矢量。接下来，将这些运动矢量转移到其相应的附近网格顶点，以使每个顶点从其周围特征中累积几个运动。 MeshFlow是运动矢量的稀疏2D数组，包含所有网格顶点处的运动。

关于相机运动平滑，我们设计了一个滤波器来平滑每个网格顶点处运动矢量的时间变化。将此滤镜应用于每个网格顶点。因此，它自然可以处理空间变化的运动。该过滤器的独特之处在于，它主要需要先前的动作才能实现稳定。这是通过根据相机在前几帧的运动预测合适的平滑强度来实现的。通过这种方式，它可以实现自适应平滑，以避免过度裁剪和摆动失真。我们将此过滤器称为预测的自适应路径平滑（PAPS）。

总而言之，本文的主要贡献包括：（1）用于空间变化运动表示的高效计算运动模型MeshFlow；（2）一种自适应平滑方法PAPS，它是为仅在线延迟一帧的在线处理新模型而设计的。我们在各种具有挑战性的视频上评估我们的方法，并在视觉质量和效率方面证明其有效性。1