天工 AI 开源人工智能视频工具 SkyReels V1

在这里插入图片描述

SkyReels V1 是一款开创性的人工智能视频工具,它正在改变我们制作视频的方式。它与其他人工智能视频工具的不同之处在于它的易用性,因为它对每个人都开放使用,而且它具有捕捉人类表情和情感的卓越能力。

SkyReels V1 成功的秘诀在于其训练数据。人工智能经过数百万个电影和电视节目片段的训练,能够准确理解和复制人类的表情和情绪。它能识别 33 种不同的面部表情,理解人物在场景中的移动和站立方式,创造出 400 多种不同类型的动作,甚至还能理解灯光。

与其他人工智能视频工具相比,SkyReels V1 是最出色的。它的总得分为 82.43 分,超过了 VideoCrafter 和 CogVideo 等知名工具。这意味着使用 SkyReels V1 创建的视频看起来更自然,人物动作更逼真,光线看起来更合理,一切感觉更真实。

要使用 SkyReels V1,您需要一台像样的电脑、一些耐心、使用命令行的基本知识和 CUDA 12.2 版本。设置过程包括从 GitHub 获取代码,安装必要的要求,然后使用提供的命令运行第一个视频。

博客文章还提供了充分利用 SkyReels V1 的技巧,例如从短视频开始、提供清晰详细的提示、保持耐心以及尽可能使用多个 GPU 来加快视频生成过程。

总之,SkyReels V1 是一款功能强大的人工智能视频工具,人人都能使用,而且能制作出高质量、自然美观的视频。凭借其先进的功能和易于使用的设置,它是任何希望使用人工智能制作专业视频的人的最佳选择。

🔑 主要功能

  1. 自主开发的数据清洗和注释管道

我们的模式建立在自主开发的数据清洗和注释管道的基础上,创建了一个包含高质量电影、电视和纪录片内容的庞大数据集。

  • 表情分类:将人类面部表情分为 33 种不同类型。
  • 角色空间意识:利用 3D 人体重建技术了解视频中多人之间的空间关系,从而实现电影级别的角色定位。
  • 动作识别:构建 400 多个动作语义单元,实现对人类动作的精确理解。
  • 场景理解:对服装、场景和情节进行跨模态关联分析。
  1. 多阶段图像到视频预训练
    HunyuanVideo设计的启发,我们的多阶段预训练流水线包括以下阶段:
  • 阶段 1:模型领域转移预训练:我们使用一个大型数据集(O(10M) 的电影和电视内容)来调整文本到视频模型,使其适应以人为中心的视频领域。
  • 第 2 阶段:图像到视频模型预训练:我们通过调整 conv-in 参数,将第 1 阶段的文本到视频模型转换为图像到视频模型。然后在第 1 阶段使用的相同数据集上对这一新模型进行预训练。
  • 第 3 阶段:高质量微调:我们在原始数据集的高质量子集上对图像到视频模型进行微调,以确保卓越的性能和质量。

📊 基准结果

我们使用 VBench 评估了文本到视频模型的性能,并将其与其他优秀的开源模型进行了比较。

根据基准测试结果,SkyReels V1 在开源文本到视频 (T2V) 模型中表现出了 SOTA 性能。具体来说,我们的模型获得了 82.43 的总分,高于其他开源模型,如 VideoCrafter-2.0 VEnhancer(82.24)和 CogVideoX1.5-5B(82.17)。此外,我们的模型在动态度和多对象等几个关键指标上都获得了最高分,这表明我们的模型具有处理复杂视频生成任务的卓越能力。

型号总体质量得分语义得分图像质量动态程度多个对象空间关系
OpenSora V1.377.2380.1465.6256.2130.2843.5851.61
AnimateDiff-V280.2782.9069.7570.140.8336.8834.60
VideoCrafter-2.0 VEnhancer82.2483.5477.0665.3563.8968.8457.55
CogVideoX1.5-5B82.1782.7879.7665.0250.9369.6580.25
HunyuanVideo 540P81.2383.4972.2266.3151.6770.4563.46
SkyReels V1 540P (Ours)82.4384.6273.6867.1572.571.6170.83

📦 模型介绍

型号名称分辨率视频长度FPS下载链接
SkyReels-V1-Hunyuan-I2V544px960p9724🤗 Download
SkyReels-V1-Hunyuan-T2V544px960p9724🤗 Download

🚀 SkyReels Infer Introduction

SkyReelsInfer是一个高效的视频生成推理框架,能够准确、快速地制作高质量视频,使视频生成推理的速度大大加快,而质量却丝毫无损。

多 GPU 推断支持:该框架支持上下文并行、CFG 并行和 VAE 并行方法,有助于快速、无损地制作视频,满足在线环境对低延迟的严格要求。
用户级GPU部署:通过采用模型量化和参数级卸载策略,该系统大大降低了 GPU 内存需求,满足了 VRAM 有限的消费级显卡的需求。
卓越的推理性能:与宏源视讯 XDiT 相比,该框架的端到端延迟降低了 58.3%,为推理速度树立了新的标杆,显示出卓越的效率。

卓越的可用性:该系统基于开源框架 Diffusers 构建,采用非侵入式并行实施方法,确保了无缝的用户友好体验。

🛠️ 运行指南

首先克隆版本库:

git clone https://github.com/SkyworkAI/SkyReels-V1
cd skyreelsinfer

《Linux 安装指南》
我们推荐使用 Python 3.10 和 CUDA 12.2 版本进行手动安装。

# Install pip dependencies
pip install -r requirements.txt

如果有足够的 VRAM(例如在 A800 上),可以直接运行无损版本。

注:在生成视频时,提示应以 "FPS-24 "开头,因为我们在训练时参考了 Moviegen 的控制 fps 训练方法。

SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --task_type t2v \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0

用户级 GPU 推断(RTX4090)
我们在下表列出了推荐的高度/宽度/帧设置。

Resolutionh/w=9:16h/w=16:9h/w=1:1
544p544px960px97f960px544px97f720px720px97f

使用命令行

# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# parameters_level: Further reduce GPU VRAM usage.
# task_type:The task type is designated to support both t2v and i2v. For the execution of an i2v task, it is necessary to input --image.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --task_type t2v \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0 \
    --quant \
    --offload \
    --high_cpu_memory \
    --parameters_level

上面的示例显示了在单个 RTX 4090 上生成 544px960px97f 4 秒视频的情况,该视频使用了完整的 VRAM 优化,峰值使用了 18.5G VRAM。在最大 VRAM 容量下,可生成 544px960px289f 12 秒的视频(使用 --sequence_batch 时,在一个 RTX 4090 上需要约 1.5 小时;增加 GPU 可大大缩短时间)。

🚀多个 GPU 上的并行推理

# SkyReelsModel: If using i2v, switch to Skywork/SkyReels-V1-Hunyuan-I2V.
# quant: Enable FP8 weight-only quantization
# offload: Enable offload model
# high_cpu_memory: Enable pinned memory to reduce the overhead of model offloading.
# gpu_num: Number of GPUs used.
SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0 \
    --quant \
    --offload \
    --high_cpu_memory \
    --gpu_num $GPU_NUM

代码

https://github.com/SkyworkAI/SkyReels-V1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值