Dreamix: Video Diffusion Models are General Video Editors
Abstract
扩散模型已经广泛的应用于图像编辑,但是却很少用于视频编辑,提出了一种基于扩散模型的方法,能够对普通视频进行基于文本的运动和外观编辑。同时介绍了一种新的图像动画框架,通过将图像转为视频,然后使用视频编辑器进行动画处理。
contribution:
- 提出一种基于真实世界视频的基于文本的外观和运动编辑方法。
- 提出一种新的混合微调模型,提高了运动编辑的质量
- 在简单的图像预处理操作之后应用视频编辑器的方法,提出一种新的文本引导图像的动画框架
项目主页:https://dreamix-video-editing.github.io/
Method
利用下采样的视频并添加部分高斯噪声所谓输入,而不是完全的高斯噪声。
由于输入的视频分辨率高度损坏,不能有效的保留视频的分辨率细节,通过在输入视频上添加微调模型来解决这个问题。
将整个视频和帧的无序集合作为输入,第一个目标通过要求模型在给定其噪声版本的情况下准确的重构输入视频实现在运动和外观上更新模型先验。同时,训练模型在给定其噪声版本下单独的重建每个帧,这与目标的运动无关。
基于这两个损失函数对模型进行微调,尽可能的保证模型的外观细节的保留。
application
输入一张图片,复制为16张,利用16个透视变换,只输入图片时,设置α=0,对图形进行微调,之后再使用dreamix转化为视频。