DiffuEraser：阿里通义实验室推出的视频修复模型，支持高清修复、时间一致性优化

最新推荐文章于 2025-05-21 16:53:23 发布

蚝油菜花

最新推荐文章于 2025-05-21 16:53:23 发布

阅读量1k

点赞数 19

分类专栏：每日 AI 项目与应用实例文章标签：音视频人工智能开源

本文链接：https://blog.csdn.net/qq_19841021/article/details/145387173

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：DiffuEraser 能够修复视频中的遮罩区域，生成丰富的细节并保持时间一致性。
技术：基于稳定扩散模型，结合 BrushNet 和 UNet 架构，优化时间一致性。
应用：适用于电影修复、监控视频增强、体育赛事直播等多种场景。

正文（附运行示例）

DiffuEraser 是什么

DiffuEraser

DiffuEraser 是阿里通义实验室推出的一款基于稳定扩散模型的视频修复工具。它能够通过结合先验信息，减少噪声伪影并抑制幻觉，生成更连贯的视频修复结果。DiffuEraser 的网络架构受 AnimateDiff 启发，集成了运动模块，主要由主去噪 UNet 和辅助的 BrushNet 组成。

DiffuEraser 通过扩展先验模型和自身的时间感受野，增强了视频修复的时间一致性。去噪后，生成的图像会与输入的遮罩图像进行融合，确保修复内容与未遮罩区域的一致性。

DiffuEraser 的主要功能

未知像素生成：基于稳定扩散模型，生成从未出现过的像素，解决传统模型处理大遮罩时的模糊问题。
已知像素传播：通过运动模块和先验模型，确保已知像素在不同帧之间一致传播。
时间一致性维护：扩展时间感受野，增强长序列推理中的时间一致性。
先验信息注入：通过先验信息减少噪声伪影，生成更准确的修复结果。
网络架构优化：集成 BrushNet 和 UNet，引入时间注意力机制，增强时间一致性。

DiffuEraser 的技术原理

网络架构：DiffuEraser 的网络架构受 AnimateDiff 启发，主要由主去噪 UNet 和辅助的 BrushNet 组成。BrushNet 提取的特征通过零卷积块逐层整合到 UNet 中。
视频修复问题分解：将视频修复问题分解为已知像素传播、未知像素生成和时间一致性维护三个子问题。
时间一致性优化：通过扩展先验模型和自身的时间感受野，增强长序列推理中的时间一致性。

如何运行 DiffuEraser

1. 安装环境

首先，克隆 DiffuEraser 的 GitHub 仓库并创建 Conda 环境：

git clone https://github.com/lixiaowen-xw/DiffuEraser.git
conda create -n diffueraser python=3.9.19
conda activate diffueraser
pip install -r requirements.txt

2. 下载预训练模型

从 Hugging Face 或 ModelScope 下载预训练模型，并将其放置在 ./weights 目录下。

3. 运行推理

进入 DiffuEraser 目录并运行推理脚本：

cd DiffuEraser
python run_diffueraser.py

推理结果将保存在 results 文件夹中。你可以替换 input_video 和 input_mask 来测试自己的视频。

资源

项目官网：https://lixiaowen-xw.github.io/DiffuEraser-page/
GitHub 仓库：https://github.com/lixiaowen-xw/DiffuEraser
arXiv 技术论文：https://arxiv.org/pdf/2501.10018

🥦 微信公众号｜搜一搜：蚝油菜花 🥦