SkyReels V1 是一款开创性的人工智能视频工具,它正在改变我们制作视频的方式。它与其他人工智能视频工具的不同之处在于它的易用性,因为它对每个人都开放使用,而且它具有捕捉人类表情和情感的卓越能力。
SkyReels V1 成功的秘诀在于其训练数据。人工智能经过数百万个电影和电视节目片段的训练,能够准确理解和复制人类的表情和情绪。它能识别 33 种不同的面部表情,理解人物在场景中的移动和站立方式,创造出 400 多种不同类型的动作,甚至还能理解灯光。
与其他人工智能视频工具相比,SkyReels V1 是最出色的。它的总得分为 82.43 分,超过了 VideoCrafter 和 CogVideo 等知名工具。这意味着使用 SkyReels V1 创建的视频看起来更自然,人物动作更逼真,光线看起来更合理,一切感觉更真实。
要使用 SkyReels V1,您需要一台像样的电脑、一些耐心、使用命令行的基本知识和 CUDA 12.2 版本。设置过程包括从 GitHub 获取代码,安装必要的要求,然后使用提供的命令运行第一个视频。
博客文章还提供了充分利用 SkyReels V1 的技巧,例如从短视频开始、提供清晰详细的提示、保持耐心以及尽可能使用多个 GPU 来加快视频生成过程。
总之,SkyReels V1 是一款功能强大的人工智能视频工具,人人都能使用,而且能制作出高质量、自然美观的视频。凭借其先进的功能和易于使用的设置,它是任何希望使用人工智能制作专业视频的人的最佳选择。
🔑 主要功能
- 自主开发的数据清洗和注释管道
我们的模式建立在自主开发的数据清洗和注释管道的基础上,创建了一个包含高质量电影、电视和纪录片内容的庞大数据集。
- 表情分类:将人类面部表情分为 33 种不同类型。
- 角色空间意识:利用 3D 人体重建技术了解视频中多人之间的空间关系,从而实现电影级别的角色定位。
- 动作识别:构建 400 多个动作语义单元,实现对人类动作的精确理解。
- 场景理解:对服装、场景和情节进行跨模态关联分析。
- 多阶段图像到视频预训练
受HunyuanVideo设计的启发,我们的多阶段预训练流水线包括以下阶段:
- 阶段 1:模型领域转移预训练:我们使用一个大型数据集(O(10M) 的电影和电视内容)来调整文本到视频模型,使其适应以人为中心的视频领域。
- 第 2 阶段:图像到视频模型预训练:我们通过调整 conv-in 参数,将第 1 阶段的文本到视频模型转换为图像到视频模型。然后在第 1 阶段使用的相同数据集上对这一新模型进行预训练。
- 第 3 阶段:高质量微调:我们在原始数据集的高质量子集上对图像到视频模型进行微调,以确保卓越的性能和质量。
📊 基准结果
我们使用 VBench 评估了文本到视频模型的性能,并将其与其他优秀的开源模型进行了比较。
根据基准测试结果,SkyReels V1 在开源文本到视频 (T2V) 模型中表现出了 SOTA 性能。具体来说,我们的模型获得了 82.43 的总分,高于其他开源模型,如 VideoCrafter-2.0 VEnhancer(82.24)和 CogVideoX1.5-5B(82.17)。此外,我们的模型在动态度和多对象等几个关键指标上都获得了最高分,这表明我们的模型具有处理复杂视频生成任务的卓越能力。
型号 | 总体 | 质量得分 | 语义得分 | 图像质量 | 动态程度 | 多个对象 | 空间关系 |
---|---|---|---|---|---|---|---|
OpenSora V1.3 | 77.23 | 80.14 | 65.62 | 56.21 | 30.28 | 43.58 | 51.61 |
AnimateDiff-V2 | 80.27 | 82.90 | 69.75 | 70.1 | 40.83 | 36.88 | 34.60 |
VideoCrafter-2.0 VEnhancer | 82.24 | 83.54 | 77.06 | 65.35 | 63.89 | 68.84 | 57.55 |
CogVideoX1.5-5B | 82.17 | 82.78 | 79.76 | 65.02 | 50.93 | 69.65 | 80.25 |
HunyuanVideo 540P | 81.23 | 83.49 | 72.22 | 66.31 | 51.67 | 70.45 | 63.46 |
SkyReels V1 540P (Ours) | 82.43 | 84.62 | 73.68 | 67.15 | 72.5 | 71.61 | 70.83 |
📦 模型介绍
型号名称 | 分辨率 | 视频长度 | FPS | 下载链接 |
---|---|---|---|---|
SkyReels-V1-Hunyuan-I2V | 544px960p | 97 | 24 | 🤗 Download |
SkyReels-V1-Hunyuan-T2V | 544px960p | 97 | 24 | 🤗 Download |
🚀 SkyReels Infer Introduction
SkyReelsInfer是一个高效的视频生成推理框架,能够准确、快速地制作高质量视频,使视频生成推理的速度大大加快,而质量却丝毫无损。
多 GPU 推断支持:该框架支持上下文并行、CFG 并行和 VAE 并行方法,有助于快速、无损地制作视频,满足在线环境对低延迟的严格要求。
用户级GPU部署:通过采用模型量化和参数级卸载策略,该系统大大降低了 GPU 内存需求,满足了 VRAM 有限的消费级显卡的需求。
卓越的推理性能:与宏源视讯 XDiT 相比,该框架的端到端延迟降低了 58.3%,为推理速度树立了新的标杆,显示出卓越的效率。
卓越的可用性:该系统基于开源框架 Diffusers 构建,采用非侵入式并行实施方法,确保了无缝的用户友好体验。
🛠️ 运行指南
首先克隆版本库:
git clone https://github.com/SkyworkAI/SkyReels-V1
cd skyreelsinfer
《Linux 安装指南》
我们推荐使用 Python 3.10 和 CUDA 12.2 版本进行手动安装。
# Install pip dependencies
pip install -r requirements.txt
如果有足够的 VRAM(例如在 A800 上),可以直接运行无损版本。
注:在生成视频时,提示应以 "FPS-24 "开头,因为我们在训练时参考了 Moviegen 的控制 fps 训练方法。
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
--model_id ${SkyReelsModel} \
--task_type t2v \
--guidance_scale 6.0 \
--height 544 \
--width 960 \
--num_frames 97 \
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
--embedded_guidance_scale 1.0
用户级 GPU 推断(RTX4090)
我们在下表列出了推荐的高度/宽度/帧设置。
Resolution | h/w=9:16 | h/w=16:9 | h/w=1:1 |
---|---|---|---|
544p | 544px960px97f | 960px544px97f | 720px720px97f |
使用命令行
# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# parameters_level: Further reduce GPU VRAM usage.
# task_type:The task type is designated to support both t2v and i2v. For the execution of an i2v task, it is necessary to input --image.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
--model_id ${SkyReelsModel} \
--task_type t2v \
--guidance_scale 6.0 \
--height 544 \
--width 960 \
--num_frames 97 \
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
--embedded_guidance_scale 1.0 \
--quant \
--offload \
--high_cpu_memory \
--parameters_level
上面的示例显示了在单个 RTX 4090 上生成 544px960px97f 4 秒视频的情况,该视频使用了完整的 VRAM 优化,峰值使用了 18.5G VRAM。在最大 VRAM 容量下,可生成 544px960px289f 12 秒的视频(使用 --sequence_batch
时,在一个 RTX 4090 上需要约 1.5 小时;增加 GPU 可大大缩短时间)。
🚀多个 GPU 上的并行推理
# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# gpu_num: Number of GPUs used.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
--model_id ${SkyReelsModel} \
--guidance_scale 6.0 \
--height 544 \
--width 960 \
--num_frames 97 \
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
--embedded_guidance_scale 1.0 \
--quant \
--offload \
--high_cpu_memory \
--gpu_num $GPU_NUM
代码
https://github.com/SkyworkAI/SkyReels-V1