dynamicrafter_pytorch AIGC算法模型

DynamiCrafter

论文

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

模型结构

该模型对Stable Diffusion进行了扩展,使其可以生成视频。在训练时采用双流图像注入(Dual-stream image injection)机制,该机制以一种上下文感知的方式继承视觉细节并提取输入图像特征。模型的整体流程是这样的,输入分别是x以及𝑥𝑚(x中随机帧),视频x逐帧通过VAE的编码器部分获取 𝑧0,图像x_m通过编码器并Repeat后与z_t(𝑧0扩散后得到)拼接进入Denoising U-Net,同时,由𝑥𝑚经过CLIP image encoder以及Query transformer后得到的条件与FPSText特征一同进入U-Net进行训练。

算法原理

该算法在文本生成视频的基础上,增加了视觉信息,使得在视频生成的过程中可以保留视觉的细节信息。

环境配置

Docker(方法一)

docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-centos7.6-dtk23.10.1-py38

docker run --shm-size 10g --network=host --name=dynamicrafter --privileged --device=/dev/kfd --device=/dev/dri --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -v 项目地址(绝对路径):/home/ -v /opt/hyhal:/opt/hyhal:ro -it <your IMAGE ID> bash

pip install -r requirements.txt

pip install flash_attn-2.0.4_torch2.1_dtk2310-cp38-cp38-linux_x86_64.whl  (whl.zip文件中)

cd xformers && pip install xformers==0.0.23 --no-deps && bash patch_xformers.rocm.sh  (whl.zip文件中)

Docker(方法二)

# 需要在对应的目录下
docker build -t <IMAGE_NAME>:<TAG> .

docker run --shm-size 10g --network=host --name=dynamicrafter --privileged --device=/dev/kfd --device=/dev/dri --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -v 项目地址(绝对路径):/home/ -v /opt/hyhal:/opt/hyhal:ro -it <your IMAGE ID> bash

pip install -r requirements.txt

pip install flash_attn-2.0.4_torch2.1_dtk2310-cp38-cp38-linux_x86_64.whl  (whl.zip文件中)

cd xformers && pip install xformers==0.0.23 --no-deps && bash patch_xformers.rocm.sh  (whl.zip文件中)

Anaconda (方法三)

1、关于本项目DCU显卡所需的特殊深度学习库可从光合开发者社区下载安装: https://developer.hpccube.com/tool/

DTK驱动:dtk23.10.1
python:python3.8
torch:2.1.0
torchvision:0.16.0
triton:2.1.0

Tips:以上dtk驱动、python、torch等DCU相关工具版本需要严格一一对应

2、其它非特殊库参照requirements.txt安装

pip install -r requirements.txt

pip install flash_attn-2.0.4_torch2.1_dtk2310-cp38-cp38-linux_x86_64.whl  (whl.zip文件中)

cd xformers && pip install xformers==0.0.23 --no-deps && bash patch_xformers.rocm.sh  (whl.zip文件中)

数据集

推理

模型下载

ModelResolutionGPU MemCheckpoint
DynamiCrafter1024576x102418.3GBhttps://huggingface.co/Doubiiu/DynamiCrafter_1024/blob/main/model.ckpt
DynamiCrafter512320x51212.8GBhttps://huggingface.co/Doubiiu/DynamiCrafter_512/blob/main/model.ckpt
DynamiCrafter256256x25611.9GBhttps://huggingface.co/Doubiiu/DynamiCrafter/blob/main/model.ckpt
DynamiCrafter512_interp320x51212.8Ghttps://huggingface.co/Doubiiu/DynamiCrafter_512_Interp/blob/main/model.ckpt

注意:若无法访问huggingface,可使用镜像hf-mirror(替换huggingface.co)。若无法访问huggingface,需要执行export HF_ENDPOINT=https://hf-mirror.com设置环境变量,用以自动下载其他必要模型。

模型文件结构如下:

checkpoints/
|── dynamicrafter_512_v1
    └── model.ckpt
|── dynamicrafter_1024_v1
    └── model.ckpt
|── dynamicrafter_256_v1
    └── model.ckpt
└── ...

命令行

# Select the model based on required resolutions: i.e., 1024|512|320:
sh scripts/run.sh 512

sh scripts/run_application.sh interp # Generate frame interpolation
sh scripts/run_application.sh loop   # Looping video generation

gradio页面

python gradio_app.py --res 512

python gradio_app_interp_and_loop.py 

result

normal

输入输出
image

prompttime-lapse of a blooming flower with leaves and a stem

interp

输入1输入2结果
image

prompta smiling girl

loop

输入结果
image

prompta beach with waves and clouds at sunset

精度

应用场景

算法类别

AIGC

热点应用行业

媒体,科研,教育

源码仓库及问题反馈

ModelZoo / DynamiCrafter_pytorch · GitLab

参考资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值