Dreamix: Video Diffusion Models are General Video Editors

最新推荐文章于 2025-02-06 21:30:47 发布

Lcx559

最新推荐文章于 2025-02-06 21:30:47 发布

阅读量439

点赞数

文章标签： python 开发语言深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lcx559/article/details/131392753

版权

Dreamix提出了一种基于扩散模型的视频编辑方法，支持文本驱动的运动和外观编辑。通过结合新的混合微调模型和图像动画框架，能够在保持细节的同时对视频进行高级编辑。此方法首先对视频添加部分高斯噪声，然后通过微调模型恢复细节和运动信息。此外，它还能将静态图像转换为动画视频。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Dreamix: Video Diffusion Models are General Video Editors

Abstract

扩散模型已经广泛的应用于图像编辑，但是却很少用于视频编辑，提出了一种基于扩散模型的方法，能够对普通视频进行基于文本的运动和外观编辑。同时介绍了一种新的图像动画框架，通过将图像转为视频，然后使用视频编辑器进行动画处理。
contribution：

提出一种基于真实世界视频的基于文本的外观和运动编辑方法。
提出一种新的混合微调模型，提高了运动编辑的质量
在简单的图像预处理操作之后应用视频编辑器的方法，提出一种新的文本引导图像的动画框架
项目主页：https://dreamix-video-editing.github.io/

Method

利用下采样的视频并添加部分高斯噪声所谓输入，而不是完全的高斯噪声。
由于输入的视频分辨率高度损坏，不能有效的保留视频的分辨率细节，通过在输入视频上添加微调模型来解决这个问题。
在这里插入图片描述
将整个视频和帧的无序集合作为输入，第一个目标通过要求模型在给定其噪声版本的情况下准确的重构输入视频实现在运动和外观上更新模型先验。同时，训练模型在给定其噪声版本下单独的重建每个帧，这与目标的运动无关。
在这里插入图片描述

基于这两个损失函数对模型进行微调，尽可能的保证模型的外观细节的保留。

application

在这里插入图片描述
输入一张图片，复制为16张，利用16个透视变换，只输入图片时，设置α=0，对图形进行微调，之后再使用dreamix转化为视频。

博客等级

码龄4年

26
原创

10
点赞

33
收藏

0
粉丝

关注

私信

热门文章

最新评论

PCT: Point Cloud Transformer论文阅读及理解
沙树林: 我复现的时候为什么在取点的那个sample_and_group中最后new_points = torch.cat((grouped_points_norm, new_points), dim=-1)的时候，维度不对呢？代码中是最后一维进行连接，而我是倒数第二维才能连接
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models”听起来非常专业和引人入胜。您在深入探讨高分辨率视频合成和潜在扩散模型方面的研究上取得了显著进展，这真是令人印象深刻。在我看来，您在博客上的连续创作表明了您对这个领域的热情和扎实的研究能力。接下来，我希望能看到您在这个主题上扩展更多内容，例如探索不同的应用场景、与其他相关技术的比较或者是实验结果的进一步分析，以加深我们对高分辨率视频合成的理解。虽然我知道这需要大量的努力和时间，但我相信您的深入研究将为我们带来更多有价值的见解。请继续保持谦虚的态度，您的博客是我学习和了解最新研究进展的重要来源。期待您未来的创作，愿您在接下来的旅程中继续取得成功！
PCT: Point Cloud Transformer论文阅读及理解
_代牛牛_: Wv is ignored since it is a weight matrix of the Linear layer. I is an identity matrix comparable to the diagonal degree matrix D of the Laplacian matrix and A is the attention matrix comparable to the adjacency matrix E.
PCT: Point Cloud Transformer论文阅读及理解
_代牛牛_: 文中： Wi因为时Laplace层的权重矩阵，因此被忽视？（这里有点不懂，评论区有大佬帮忙解释一下吗）请问一下为啥呢？
GOOD: A global orthographic object descriptor for 3D object recognition and manipulation论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。