Ruyi-Mini-7B 本地部署指南：多场景下的图生视频创作利器

原创于 2025-01-31 12:00:00 发布

· 910 阅读

版权

文章标签：

182 篇文章

订阅专栏

发布与开源 ：Ruyi-Mini-7B 是图森未来发布 Ruyi 图生视频大模型时同步开源的版本，用户可以在 huggingface 平台上轻松下载和使用。
技术基础 ：该模型基于 DiT（可能是指一种专门用于图像到视频生成的架构）架构，结合了先进的视频生成技术，专为消费级显卡（如 NVIDIA RTX 4090）设计，以降低视频生成的门槛。

Ruyi-Mini-7B 的模型架构是其强大功能的核心，主要包括以下几个部分：

Casual VAE 模块 ：负责视频数据的压缩和解压。它能够将空间分辨率降低至 1/8，时间分辨率降低至 1/4，并以 16 通道的 BF16 格式高效表示每个像素点，从而实现视频数据在处理过程中的高效性和准确性。
Diffusion Transformer 模块 ：利用 3D 全注意力机制生成压缩后的视频数据。在空间维度上使用 2D 归一化 RoPE 进行处理，在时间维度上使用 Sin-cos 位置嵌入。该模块的训练过程基于 DDPM（去噪扩散概率模型），使模型能够学习到丰富的视觉特征和动态变化，实现从输入到高质量视频输出的复杂转换。
CLIP 模型 ：Ruyi-Mini-7B 还集成了 CLIP 模型，用于从输入图像中提取语义特征，并通过交叉注意力机制将这些特征引入到变换器中，以指导视频的生成过程，为视频生成提供更具语义相关性和逻辑性的引导。

git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt

python3 predict_i2v.py