Ruyi-Mini-7B 本地部署指南:多场景下的图生视频创作利器

一、模型概述

  • 发布与开源 :Ruyi-Mini-7B 是图森未来发布 Ruyi 图生视频大模型时同步开源的版本,用户可以在 huggingface 平台上轻松下载和使用。
  • 技术基础 :该模型基于 DiT(可能是指一种专门用于图像到视频生成的架构)架构,结合了先进的视频生成技术,专为消费级显卡(如 NVIDIA RTX 4090)设计,以降低视频生成的门槛。

二、模型架构

Ruyi-Mini-7B 的模型架构是其强大功能的核心,主要包括以下几个部分:

  • Casual VAE 模块 :负责视频数据的压缩和解压。它能够将空间分辨率降低至 1/8,时间分辨率降低至 1/4,并以 16 通道的 BF16 格式高效表示每个像素点,从而实现视频数据在处理过程中的高效性和准确性。
  • Diffusion Transformer 模块 :利用 3D 全注意力机制生成压缩后的视频数据。在空间维度上使用 2D 归一化 RoPE 进行处理,在时间维度上使用 Sin-cos 位置嵌入。该模块的训练过程基于 DDPM(去噪扩散概率模型),使模型能够学习到丰富的视觉特征和动态变化,实现从输入到高质量视频输出的复杂转换。
  • CLIP 模型 :Ruyi-Mini-7B 还集成了 CLIP 模型,用于从输入图像中提取语义特征,并通过交叉注意力机制将这些特征引入到变换器中,以指导视频的生成过程,为视频生成提供更具语义相关性和逻辑性的引导。

三、功能特点

  • 多分辨率支持 :Ruyi-Mini-7B 支持从最小 384×384 到最大 1024×1024 的分辨率,长宽比任意,为用户提供灵活的视频生成选项。
  • 多时长生成 :能够生成最长 120 帧(约 5 秒)的视频,满足多种应用场景的需求。
  • 首帧、首尾帧控制生成 :支持基于最多 5 个起始帧和 5 个结束帧的视频生成,通过循环叠加可以生成任意长度的视频,极大地丰富了创作的灵活性。
  • 运动幅度控制 :提供 4 档运动幅度控制,方便用户对整体画面的变化程度进行精准掌控。
  • 镜头控制 :提供上、下、左、右及静止共 5 种镜头控制选项,使用户能够根据剧情需求进行创意尝试。

五、部署教程

1.安装项目及环境
git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt
2.运行,使用 Python 脚本运行:
python3 predict_i2v.py

image.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值