稳定视频扩散(SVD)是一种强大的图像到视频生成模型,可以根据输入图像生成2-4秒的高分辨率(576x1024)视频。有此模型的两个变体,SVD和SVD-XT。SVD Checkpoint被训练以生成14帧视频,并且SVD-XT Checkpoint点被进一步微调以生成25帧视频。下面将在本指南中使用SVD-XT Checkpoint。
import os os.environ["HF_ENDPOINT"] = "https://hf-mirror.com" mport torch from diffusers import StableVideoDiffusionPipeline from diffusers.utils import load_image, export_to_video
# 加载SVD-XT模型
pipe = StableVideoDiffusionPipeline.from_pretrained(
"stabilityai/stable-video-diffusion-img2vid-xt", torch_dtype=torch.float16, variant="fp16"
)
pipe.enable_model_cpu_offload()
# 加载原始图片并调整图片大小
image = load_image("https://hf-mirror.com/datasets/huggingface/documentation-images/resolve/main/diffusers/svd/rocket.png")
image = image.resize((1024, 576))
generator = torch.manual_seed(42)
frames = pipe(image, decode_chunk_size=8, generator=generator).frames[0]
export_to_video(frames, "generated.mp4", fps=5)
以下为原始图片
Stable Video Diffusion生成结果演示