天工 AI 开源人工智能视频工具 SkyReels V1

最新推荐文章于 2025-04-22 08:11:21 发布

吴脑的键客

最新推荐文章于 2025-04-22 08:11:21 发布

阅读量1.5k

点赞数 43

分类专栏： AI作画文章标签：人工智能开源 AIGC

本文链接：https://blog.csdn.net/weixin_41446370/article/details/145819575

版权

AI作画专栏收录该内容

113 篇文章

订阅专栏

在这里插入图片描述

SkyReels V1 是一款开创性的人工智能视频工具，它正在改变我们制作视频的方式。它与其他人工智能视频工具的不同之处在于它的易用性，因为它对每个人都开放使用，而且它具有捕捉人类表情和情感的卓越能力。

SkyReels V1 成功的秘诀在于其训练数据。人工智能经过数百万个电影和电视节目片段的训练，能够准确理解和复制人类的表情和情绪。它能识别 33 种不同的面部表情，理解人物在场景中的移动和站立方式，创造出 400 多种不同类型的动作，甚至还能理解灯光。

与其他人工智能视频工具相比，SkyReels V1 是最出色的。它的总得分为 82.43 分，超过了 VideoCrafter 和 CogVideo 等知名工具。这意味着使用 SkyReels V1 创建的视频看起来更自然，人物动作更逼真，光线看起来更合理，一切感觉更真实。

要使用 SkyReels V1，您需要一台像样的电脑、一些耐心、使用命令行的基本知识和 CUDA 12.2 版本。设置过程包括从 GitHub 获取代码，安装必要的要求，然后使用提供的命令运行第一个视频。

博客文章还提供了充分利用 SkyReels V1 的技巧，例如从短视频开始、提供清晰详细的提示、保持耐心以及尽可能使用多个 GPU 来加快视频生成过程。

总之，SkyReels V1 是一款功能强大的人工智能视频工具，人人都能使用，而且能制作出高质量、自然美观的视频。凭借其先进的功能和易于使用的设置，它是任何希望使用人工智能制作专业视频的人的最佳选择。

🔑 主要功能

自主开发的数据清洗和注释管道

我们的模式建立在自主开发的数据清洗和注释管道的基础上，创建了一个包含高质量电影、电视和纪录片内容的庞大数据集。

表情分类：将人类面部表情分为 33 种不同类型。
角色空间意识：利用 3D 人体重建技术了解视频中多人之间的空间关系，从而实现电影级别的角色定位。
动作识别：构建 400 多个动作语义单元，实现对人类动作的精确理解。
场景理解：对服装、场景和情节进行跨模态关联分析。

多阶段图像到视频预训练
受HunyuanVideo设计的启发，我们的多阶段预训练流水线包括以下阶段：

阶段 1：模型领域转移预训练：我们使用一个大型数据集（O(10M) 的电影和电视内容）来调整文本到视频模型，使其适应以人为中心的视频领域。
第 2 阶段：图像到视频模型预训练：我们通过调整 conv-in 参数，将第 1 阶段的文本到视频模型转换为图像到视频模型。然后在第 1 阶段使用的相同数据集上对这一新模型进行预训练。
第 3 阶段：高质量微调：我们在原始数据集的高质量子集上对图像到视频模型进行微调，以确保卓越的性能和质量。

📊 基准结果

我们使用 VBench 评估了文本到视频模型的性能，并将其与其他优秀的开源模型进行了比较。

根据基准测试结果，SkyReels V1 在开源文本到视频 (T2V) 模型中表现出了 SOTA 性能。具体来说，我们的模型获得了 82.43 的总分，高于其他开源模型，如 VideoCrafter-2.0 VEnhancer（82.24）和 CogVideoX1.5-5B（82.17）。此外，我们的模型在动态度和多对象等几个关键指标上都获得了最高分，这表明我们的模型具有处理复杂视频生成任务的卓越能力。

型号	总体	质量得分	语义得分	图像质量	动态程度	多个对象	空间关系
OpenSora V1.3	77.23	80.14	65.62	56.21	30.28	43.58	51.61
AnimateDiff-V2	80.27	82.90	69.75	70.1	40.83	36.88	34.60
VideoCrafter-2.0 VEnhancer	82.24	83.54	77.06	65.35	63.89	68.84	57.55
CogVideoX1.5-5B	82.17	82.78	79.76	65.02	50.93	69.65	80.25
HunyuanVideo 540P	81.23	83.49	72.22	66.31	51.67	70.45	63.46
SkyReels V1 540P (Ours)	82.43	84.62	73.68	67.15	72.5	71.61	70.83

📦 模型介绍

型号名称	分辨率	视频长度	FPS	下载链接
SkyReels-V1-Hunyuan-I2V	544px960p	97	24	🤗 Download
SkyReels-V1-Hunyuan-T2V	544px960p	97	24	🤗 Download

🚀 SkyReels Infer Introduction

SkyReelsInfer是一个高效的视频生成推理框架，能够准确、快速地制作高质量视频，使视频生成推理的速度大大加快，而质量却丝毫无损。

多 GPU 推断支持：该框架支持上下文并行、CFG 并行和 VAE 并行方法，有助于快速、无损地制作视频，满足在线环境对低延迟的严格要求。
用户级GPU部署：通过采用模型量化和参数级卸载策略，该系统大大降低了 GPU 内存需求，满足了 VRAM 有限的消费级显卡的需求。
卓越的推理性能：与宏源视讯 XDiT 相比，该框架的端到端延迟降低了 58.3%，为推理速度树立了新的标杆，显示出卓越的效率。

卓越的可用性：该系统基于开源框架 Diffusers 构建，采用非侵入式并行实施方法，确保了无缝的用户友好体验。

🛠️ 运行指南

首先克隆版本库：

git clone https://github.com/SkyworkAI/SkyReels-V1
cd skyreelsinfer

《Linux 安装指南》
我们推荐使用 Python 3.10 和 CUDA 12.2 版本进行手动安装。

# Install pip dependencies
pip install -r requirements.txt

如果有足够的 VRAM（例如在 A800 上），可以直接运行无损版本。

注：在生成视频时，提示应以 "FPS-24 "开头，因为我们在训练时参考了 Moviegen 的控制 fps 训练方法。

SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --task_type t2v \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0

用户级 GPU 推断（RTX4090)
我们在下表列出了推荐的高度/宽度/帧设置。

Resolution	h/w=9:16	h/w=16:9	h/w=1:1
544p	544px960px97f	960px544px97f	720px720px97f

使用命令行

# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# parameters_level: Further reduce GPU VRAM usage.
# task_type:The task type is designated to support both t2v and i2v. For the execution of an i2v task, it is necessary to input --image.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --task_type t2v \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0 \
    --quant \
    --offload \
    --high_cpu_memory \
    --parameters_level

上面的示例显示了在单个 RTX 4090 上生成 544px960px97f 4 秒视频的情况，该视频使用了完整的 VRAM 优化，峰值使用了 18.5G VRAM。在最大 VRAM 容量下，可生成 544px960px289f 12 秒的视频（使用 --sequence_batch 时，在一个 RTX 4090 上需要约 1.5 小时；增加 GPU 可大大缩短时间）。

🚀多个 GPU 上的并行推理

# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# gpu_num: Number of GPUs used.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0 \
    --quant \
    --offload \
    --high_cpu_memory \
    --gpu_num $GPU_NUM

代码

https://github.com/SkyworkAI/SkyReels-V1