潞晨Open-Sora 1.2发布，16秒720p视频一键生成，质量更高训练成本更低

最新推荐文章于 2024-07-08 22:17:38 发布

努力犯错

最新推荐文章于 2024-07-08 22:17:38 发布

阅读量888

点赞数 23

文章标签：音视频语言模型自然语言处理机器学习深度学习人工智能

本文链接：https://blog.csdn.net/nulifancuoAI/article/details/139908357

版权

文生视频技术是近年来 AI 领域最令人瞩目的突破之一。OpenAI 的 Sora 模型展示了令人惊叹的视频生成能力，但其闭源特性限制了技术的普及和发展。而潞晨 Open-Sora 团队则致力于将文生视频技术开源，让更多人能够体验和应用这项技术。

16秒720p高清视频，现在一键生成！

Open-Sora 1.2 在 720p 高清文生视频质量和生成时长上取得了突破性进展，支持无缝产出任意风格的高质量短片，并继续全部开源。其技术亮点包括：

视频压缩网络： Open-Sora 团队提出了一个创新的视频压缩网络（VAE），该网络在空间和时间两个维度上分别进行压缩。首先在空间维度上进行 8x8 倍的压缩，接着在时间维度上进一步压缩了 4 倍。这种创新的压缩策略既避免了因抽帧而牺牲视频流畅度的弊端，又大幅降低了训练成本，实现了成本与质量的双重优化。

更优的扩散模型算法： 基于 Stable Diffusion 3 的研究成果，Open-Sora 团队提供了一套完整的训练解决方案，包括简单易用的整流（rectified flow）训练、用于训练加速的 Logit-norm 时间步长采样、基于分辨率和视频长度的时间步长采样等。这些技术的整合不仅能够加快模型的训练速度，还能显著减少推理阶段的等待时间，确保用户体验的流畅性。此外，这套训练方案还支持在推理过程中输出多种视频宽高比，满足了多样化场景下的视频素材需求。
更完善的模型评估体系： Open-Sora 团队构建了更完善的模型评估体系，保障模型的稳健性和泛化能力。他们跟踪了 100 张图像和 1k 个视频的校正流评估损失，并使用 VBench 进行自动视频评估，以监控训练过程和评估模型性能。

Open-Sora 1.2 能够生成时长 16 秒、分辨率 720p 的高清视频，并支持生成各种风格的短片，例如海浪、森林、人物肖像、赛博朋克、动画等。此外，Open-Sora 1.2 还支持图像到视频的生成和视频扩展功能。

Open-Sora 的开源为文生视频技术的应用带来了新的可能：

Open-Sora 1.2 的开源为文生视频技术的创新和发展注入了强劲的活力。它不仅提供了强大的模型和代码，更重要的是，它为用户提供了自主开发文生视频应用的新技能，让更多人能够参与到文生视频技术的应用中。

Huggingface模型下载

https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3

AI快站模型免费加速下载

https://aifasthub.com/models/hpcai-tech

关注