一、模型概述
- 发布与开源 :Ruyi-Mini-7B 是图森未来发布 Ruyi 图生视频大模型时同步开源的版本,用户可以在 huggingface 平台上轻松下载和使用。
- 技术基础 :该模型基于 DiT(可能是指一种专门用于图像到视频生成的架构)架构,结合了先进的视频生成技术,专为消费级显卡(如 NVIDIA RTX 4090)设计,以降低视频生成的门槛。
二、模型架构
Ruyi-Mini-7B 的模型架构是其强大功能的核心,主要包括以下几个部分:
- Casual VAE 模块 :负责视频数据的压缩和解压。它能够将空间分辨率降低至 1/8,时间分辨率降低至 1/4,并以 16 通道的 BF16 格式高效表示每个像素点,从而实现视频数据在处理过程中的高效性和准确性。
- Diffusion Transformer 模块 :利用 3D 全注意力机制生成压缩后的视频数据。在空间维度上使用 2D 归一化 RoPE 进行处理,在时间维度上使用 Sin-cos 位置嵌入。该模块的训练过程基于 DDPM(去噪扩散概率模型),使模型能够学习到丰富的视觉特征和动态变化,实现从输入到高质量视频输出的复杂转换。
- CLIP 模型 :Ruyi-Mini-7B 还集成了 CLIP 模型,用于从输入图像中提取语义特征,并通过交叉注意力机制将这些特征引入到变换器中,以指导视频的生成过程,为视频生成提供更具语义相关性和逻辑性的引导。
三、功能特点
- 多分辨率支持 :Ruyi-Mini-7B 支持从最小 384×384 到最大 1024×1024 的分辨率,长宽比任意,为用户提供灵活的视频生成选项。
- 多时长生成 :能够生成最长 120 帧(约 5 秒)的视频,满足多种应用场景的需求。
- 首帧、首尾帧控制生成 :支持基于最多 5 个起始帧和 5 个结束帧的视频生成,通过循环叠加可以生成任意长度的视频,极大地丰富了创作的灵活性。
- 运动幅度控制 :提供 4 档运动幅度控制,方便用户对整体画面的变化程度进行精准掌控。
- 镜头控制 :提供上、下、左、右及静止共 5 种镜头控制选项,使用户能够根据剧情需求进行创意尝试。
五、部署教程
1.安装项目及环境
git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt
2.运行,使用 Python 脚本运行:
python3 predict_i2v.py