开源项目 | DiffIR2VR-Zero：模糊视频8K高清修复技术

猫先生@魔方AI空间

已于 2024-10-14 19:54:31 修改

阅读量1.1k

点赞数 31

分类专栏：开源项目 AI视频 AIGC 文章标签：音视频 AIGC 人工智能计算机视觉

于 2024-10-14 19:28:33 首次发布

本文链接：https://blog.csdn.net/m_aigc2022/article/details/142926343

版权

AIGC 同时被 3 个专栏收录

26 篇文章

订阅专栏

开源项目

8 篇文章

订阅专栏

AI视频

5 篇文章

订阅专栏

〔更多精彩AI内容，尽在 「魔方AI空间」 公众号，引领AIGC科技时代〕

本文作者：猫先生

AIGCmagic社区知识库（免费访问）

原文地址：开源实操 | DiffIR2VR-Zero：模糊视频8K高清修复技术

简介

DiffIR2VR-Zero：一种创新的零样本视频恢复技术，该技术利用预训练的图像恢复模型，解决了传统方法在不同场景下泛化能力不足的问题。

通过关键帧与局部帧的分层合并策略和混合对应机制，该方法在无需重新训练的情况下，实现了卓越的视频恢复效果，甚至在极端退化条件下超越了训练模型。这项研究不仅提升了视频恢复的效率和适用性，也为高质量视频输出需求的领域带来了技术革新。

项目主页：https://jimmycv07.github.io/DiffIR2VR_web/

官方演示：https://huggingface.co/spaces/Koi953215/DiffIR2VR

视频超分辨率

(a) 传统的基于回归的方法（例如 FMA-Net）仅限于训练数据域，并且在遇到域外输入时往往会产生模糊的结果。 (b) 虽然将基于图像的扩散模型（例如 DiffBIR）应用于各个帧可以生成真实的细节，但这些细节通常缺乏帧间的一致性。 (c) DiffIR2VR-Zero方法利用图像扩散模型来恢复视频，无需任何额外的训练即可实现真实且一致的结果。

方法概述：

使用扩散模型批量处理低质量 (LQ) 视频，并在每批中随机采样关键帧。 (a) 在扩散去噪过程开始时，分层潜在扭曲通过关键帧之间的潜在扭曲在全局提供粗略的形状指导，并通过在批次内传播这些潜在扭曲在局部提供粗略的形状指导。 (b) 在大部分去噪过程中，标记在自注意力层之前合并。对于下采样块，使用光流来查找标记之间的对应关系，对于上采样块，利用余弦相似度。这种混合流引导、空间感知的Token合并通过利用流和空间信息准确地识别Token之间的对应关系，从而增强Token级别的整体一致性。

分层潜在变形

无需任何训练，分层潜在变形即可提供全局和局部形状指导，并可以通过增强潜在空间中的时间稳定性来实现跨帧的一致性。

混合空间感知Token合并

在自注意力层之前，利用光流和余弦相似性匹配相似的Token，提高时间一致性。

自注意力层之前的混合空间感知令牌合并通过使用 UNet 的下行块中的光流和上行块中的余弦相似性来匹配相似的令牌，从而提高了时间一致性。

令牌对应关系

通过光流和余弦相似性找到不同的对应关系，采用混合方法提高效果。

通过余弦相似度和光流找到对应关系。在去噪过程开始时，UNet 下块中的潜在噪声太大，余弦相似性无法有效，而从 LQ 帧估计的光流仍然可靠。流和余弦相似度通常会识别不同的对应关系，因此混合方法更有效。

实操部署

为了方便访问huggingface不方便的朋友，关于DiffIR2VR-Zero的代码和模型文件，已打包好了，关注【魔方AI空间】，回复“111”即可领取！！

安装依赖

# clone this repo
git clone https://github.com/jimmycv07/DiffIR2VR-Zero.git
cd DiffIR2VR-Zero

# create environment
conda create -n diffir2vr python=3.10
conda activate diffir2vr
pip install -r requirements.txt

下载模型文件

请按照以下文件夹结构放置预训练权重。

weights
└─── gmflow_sintel-0c07dcb3.pth
└─── v2.pth
└─── v2-1_512-ema-pruned.ckpt

推理命令

视频去噪

python -u inference.py \
--version v2 \
--task dn \
--upscale 1 \
--cfg_scale 4.0 \
--batch_size 10 \
--input inputs/noise_50/flamingo \
--output results/Denoise/flamingo  \
--config configs/inference/my_cldm.yaml \
--final_size "(480, 854)" \
--merge_ratio "(0.6, 0)" \
--better_start

视频超分

python -u inference.py \
--version v2 \
--task sr \
--upscale 4 \
--cfg_scale 4.0 \
--batch_size 10 \
--input inputs/BDx4/rhino \
--output results/SR/rhino  \
--config configs/inference/my_cldm.yaml \
--final_size "(480, 854)" \
--merge_ratio "(0.6, 0)"