视频扩散模型介绍 Video Diffusion Models Introduction

KiraFenvy

已于 2024-03-06 15:44:39 修改

阅读量2.9k

点赞数 28

分类专栏： paper 论文笔记文章标签： python

于 2024-03-05 15:21:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51371693/article/details/136478507

版权

论文笔记同时被 2 个专栏收录

14 篇文章

订阅专栏

4 篇文章

订阅专栏

本文介绍了视频扩散模型中的关键概念，如DDPM、DDIM、CLIP等，以及LatentDiffusion和LoRA等高效生成方法。文章还涵盖了开源模型、评估标准、前人工作和长视频生成等内容，展示了从图片生成到视频生成的技术路径和控制编辑的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程
在这里插入图片描述

在这里插入图片描述

去噪器，预测出来噪声然后与原始图片相减，得到干净的图片

在这里插入图片描述
当然，去噪过程是逐步的，所以减去之后会重新加上“平均噪声”

DDIM

跳步
在这里插入图片描述
DDIM和DDPM作对比：

在这里插入图片描述

CLIP

在这里插入图片描述

Latent Diffusion

不是直接在像素空间进行操作，多了编码解码，在latent空间操作加噪和去噪过程
在这里插入图片描述

Stable Diifusion

在这里插入图片描述

LoRA

微调
在这里插入图片描述

DreamBooth

在这里插入图片描述

ControlNet

在这里插入图片描述

在这里插入图片描述

视频生成

一些已有的工作分类
在这里插入图片描述
3D可以分成（2+1），就是从图片生成到视频生成的一种思路

早期工作：
在这里插入图片描述
解码器+插帧+超分辨率模块

评估标准

在这里插入图片描述

图片层面

语义相似度
在这里插入图片描述

像素相似度
在这里插入图片描述

视频层面

视频生成的质量和多样性
在这里插入图片描述

一致性
在这里插入图片描述

组合评估
在这里插入图片描述

前人的工作

Make-A-Video

在这里插入图片描述

Align your Latents

在这里插入图片描述

开源视频生成模型

ModelScopeT2V（阿里）

在这里插入图片描述

可变temporal attention
在这里插入图片描述

下面是模型效果，ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的
在这里插入图片描述

Show-1

在这里插入图片描述

VideoCrafter（tx）

在这里插入图片描述

LaVie

在这里插入图片描述

Stable Video Diffusion

数据处理
在这里插入图片描述

训练过程：
先初始化参数

训练过程

fine-tune阶段
在这里插入图片描述

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Text2Video-Zero 无需训练

动机：如何在不用fine-tune的情况下使用Stable Diffusion

做法：给定第一帧noise后，人为定义全局scene motion

在这里插入图片描述

其他

在这里插入图片描述

Storyboard

前面生成的视频都是几秒钟长度的视频，如果时间要增长，有哪些工作做了

文本->电影脚本->视频

VisorGPT

在这里插入图片描述

VideoDirectorGPT

在这里插入图片描述

Long-form Video Prior

在这里插入图片描述

其他工作

在这里插入图片描述

长视频生成

NUWA-XL

在这里插入图片描述

Video Editing

在这里插入图片描述

Tuning-based

Tune-A-Video

在这里插入图片描述

Sparse-Casual的attention方式节约内存空间，只跟第一帧和前一帧做attention
在这里插入图片描述

Dreamix

在这里插入图片描述

在这里插入图片描述

Training-Free

TokenFlow

在这里插入图片描述

FateZero

在这里插入图片描述

其他工作

在这里插入图片描述

Controlled Editing

Gen-1

在这里插入图片描述

Pix2Video

Control场景里也有不需要训练的方法
在这里插入图片描述

ControlVideo

另外一种不需要训练的方法
在这里插入图片描述

VideoControlNet

CCEdit

在这里插入图片描述

VideoComposer

在这里插入图片描述

其他工作

在这里插入图片描述

Pose Control姿态控制

MagicAnimate

在这里插入图片描述

PointControl

比如图中想把猫换成狗但是背景保留

在这里插入图片描述

只在关键帧标注
在这里插入图片描述

3D-Aware

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。