DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis学习笔记

kangxi11122344

已于 2023-09-12 15:55:29 修改

阅读量285

点赞数 1

文章标签：学习笔记

于 2023-09-05 09:58:48 首次发布

本文链接：https://blog.csdn.net/kangxi11122344/article/details/132677051

版权

DiffSynth: Latent InIteration Deflickering for Realistic Video Synthesis（为视频生成实现潜在迭代去闪烁）学习笔记

method
- Latent In-Iteration Deflickering（latent 域迭代去闪烁框架）
- Patch Blending Algorithm（视频去闪烁算法）
experiments

motivation： 将图像生成模型用于视频生成模型会产生闪烁现象
contribution： 提出将迭代去闪烁框架应用于latent space，提出一种视频去闪烁算法，patch blending algorithm
在这里插入图片描述

method

Latent In-Iteration Deflickering（latent 域迭代去闪烁框架）

n帧，t步加噪得到的tensor $\{x_{t}^{1},x_{t}^{2},\ldots,x_{t}^{n}\}$ 直接按照原始去噪方式得到 $\{x_{t-1}^{1},x_{t-1}^{2},\ldots,x_{t-1}^{n}\}$ 由于独立去噪，生成的latent tensor不一致
本文做法：
先估计 $\{x_{0}^{1},x_{0}^{2},\ldots,x_{0}^{n}\}$ 的值，使用公式： $\hat{x}_0^i=\frac{x_t^i-\sqrt{1-\alpha_t}\epsilon(x_t^i)}{\sqrt{\alpha_t}}.$
将估计得到的 $\{\hat{x}_0^1,\hat{x}_0^2,\ldots,\hat{x}_0^n\}$ 解码为image space $\hat{X}^i=\mathcal{D}(\hat{x}_0^i)$ 得到 $\{\hat{X}^{1},\hat{X}^{2},\ldots,\hat{X}^{n}\}$
采用video-level去闪烁方法 $\mathcal{F}$ 来使视频连贯
$\{\overline{X}^1,\overline{X}^2,\ldots,\overline{X}^n\}=\mathcal{F}\{\hat{X}^1,\hat{X}^2,\ldots,\hat{X}^n\}.$
再把处理过的视频帧encoder回latent域
$\overline{x}_0^i=\mathcal{E}\left(\overline{X}^i\right).$
修改预测的噪声
$\bar{\epsilon}(x_t^i)=\frac{x_t^i-\sqrt{\alpha_t}\overline{x}_0^i}{\sqrt{1-\alpha_t}}.$
加噪得到
$x_{t-1}^i=\sqrt{\alpha_{t-1}}\overline{x}_0^i+\sqrt{1-\alpha_{t-1}}\overline{\epsilon}(x_t^i).$
（与之前的扩散生成模型不同）

Patch Blending Algorithm（视频去闪烁算法）

讲如何设计上述提到的 $\mathcal{F}$
主要思想： $\hat{X}^{i}$ 中的物体，可能也存在于 $\hat{X}^{j}$ 中，将相应 $\hat{X}^{j}$ 中的区域remap到 $\hat{X}^{i}$ 中，然后混合
目的：融合的帧会显示出 $\hat{X}^{i}$ 和 $\hat{X}^{j}$ 的一致特征
问题：patch匹配可能会不准确
解决方式：patch matching algorithm（2009年），该算法将两帧 $X^i$ 和 $X^j$ 划分为一些重叠的小块，计算nearest neighbor field (NNF)（最近邻场）找到匹配的patches
在这里插入图片描述具体匹配方式（比较复杂）
定义符号：
remapping operator $[j\rightarrow i]$ ，表示由第 $j$ 帧 $\hat{X}^{j}$ remap到第 $i$ 帧 $\hat{X}^{i}$ 的操作
$\hat{X}^{j\to i}$ ，表示由第 $j$ 帧 $\hat{X}^{j}$ remap到第 $i$ 帧 $\hat{X}^{i}$ 的结果
下标表示remap的次数
$[\hat{X}^{j\to i}]_0=\hat{X}^i, \\ [\hat{X}^{j\to i}]_{u+1}=[\hat{X}^{j\to k}]_u[k\to i].$
在这里插入图片描述

在这里插入图片描述

experiments

在这里插入图片描述
Pixel-MSE：计算了连续帧之间的光流，并使用光流将编辑后的视频中的每一帧warp到下一个帧，warp帧与其对应的目标帧之间的平均均方误差定义为 Pixel-MSE

关于deflickering algorithm（去闪烁算法）的消融实验，去除deflickering algorithm生成的灯光、天空颜色等不连贯
在这里插入图片描述

kangxi11122344

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis学习笔记

latent域迭代去闪烁框架，视频去闪烁算法
复制链接

扫一扫