完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具

文章链接:https://arxiv.org/pdf/2412.20404
项目链接:https://github.com/hpcaitech/Open-Sora
视频链接:https://hpcaitech.github.io/Open-Sora/

总结速览

解决的问题
人工视觉智能,特别是生成和模拟我们所见世界的能力,相较于语言能力的突破仍然滞后。现有视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面面临诸多挑战。

提出的方案
本文引入 Open-Sora,一个开源的视频生成模型,支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。通过空间-时间扩散Transformer (Spatial-Temporal Diffusion Transformer, STDiT) 框架,将空间与时间的注意力机制解耦,同时采用高度压缩的3D自编码器以压缩表示,加速训练过程。此外,提供完整的训练代码、模型权重及数据处理工具,推动社区发展。

应用的技术

  • STDiT框架:高效的扩散视频生成框架,解耦空间和时间注意力。

  • 3D自编码器:实现表示的高度压缩,加速训练。

  • 定制化训练策略:优化生成效率和效果。

达到的效果

  • 支持生成最长 15秒、分辨率最高 720p 的视频,并适配任意宽高比。

  • 在文本生成视频、图像生成视频任务中实现可控的运动动态生成。

  1. 开源以来取得显著成果,模型版本持续更新(v1.0到v1.2),当前最新版本(v1.2)已实现完整复现 OpenAI Sora 的技术,并支持生成多分辨率视频。

数据

数据来源

所使用的数据集全部开源,以确保模型训练的完全可复现性。总计生成了 30M 个视频片段,时长从 2秒到16秒 不等,总时长达 80k小时

  • Webvid-10M:包含 10M 个来自库存视频网站的视频-文本对。视频为低分辨率并带有水印。

  • Panda-70M:一个大规模数据集,包含 70M 个视频-字幕对。使用了其中 20M 高质量子集进行训练。

  • HD-VG-130M:由 130M 个文本-视频对组成,字幕通过 BLIP-2 生成。发现其场景和文本质量相对较差。

  • MiraData:一个高质量数据集,包含 77k 个长视频,主要来源于游戏和城市探索。

  • Vript:一个密集标注的数据集,包含 400k 个视频。

  • Inter4K:一个包含 1k4K分辨率 视频片段的数据集。

此外,还从 PexelsPixabayMixkit 获取了免费授权的视频。这些网站上的大部分视频质量较高,对这些优秀平台及其贡献者表示由衷的感谢。

图像数据集与视频一起训练,总计包含约 3M 张图像:

  • LAION:一个大规模开放数据集,使用了美学评分大于 6.5 的子集。

  • Unsplash-lite:包含 25k 张自然主题的 Unsplash 照片,覆盖了广泛的使用场景和上下文。

数据预处理

高质量数据对于训练优秀的生成模型至关重要。为此建立了一条完整的数据处理pipeline,可将原始视频无缝转换为高质量的视频-文本对。pipeline如图2所示。

数据处理步骤&

电力系统潮流计算是电力工程领域的一项核心技术,主要用于分析电力网络在稳态运行条件下的电压、电流、功率分布等运行状态。MATLAB凭借其强大的数值计算功能和便捷的编程环境,成为电力系统潮流计算的重要工具,它提供了丰富的数学函数库,能够高效地处理复杂的电力系统计算任务。 本压缩包中的“潮流计算MATLAB程序”是一套完整的电力系统潮流计算解决方案,主要包括以下几个关键部分: 数据输入模块:该模块负责读取电力系统的网络数据,包括发电机、线路、变压器等设备的参数。这些数据通常来源于IEEE测试系统或实际电网,并以特定格式存储。 网络建模:基于输入数据,程序构建电力系统的数学模型,主要涉及节点功率平衡方程的建立。每个节点的注入功率等于其消耗功率,对于发电机节点还需考虑其有功和无功功率的调节能力。 迭代算法:潮流计算的核心是求解非线性方程组,常见的算法有牛顿-拉夫森法和高斯-塞德尔法。MATLAB的优化工具箱可辅助实现这些算法,通过迭代更新节点电压和支路电流,直至满足收敛条件。 结果输出:计算完成后,程序能够输出关键性能指标,如节点电压幅值和相角、支路功率流、发电机的有功无功功率等。这些信息对于分析电网运行状态和制定调度策略具有重要意义。 可视化功能:程序可能包含图形用户界面(GUI),用于展示计算结果,例如绘制网络拓扑图并标注节点电压和支路功率,便于用户直观理解计算结果。 错误处理与调试:良好的程序设计应包含错误检测和处理机制,以应对不合理数据或计算过程中出现的问题,并给出适当的提示。 对于电力系统分析课程的学生来说,这个MATLAB程序是一个宝贵的学习资源。它不仅有助于学生掌握电力系统的理论知识,还能让他们了解如何将理论应用于实践,通过MATLAB解决实际问题。尽管该程序是作者一周内完成的,可能存在一些未完善之处,但使用者可以在参考的基础上逐步改进和完善,使其更贴合自身需求。 总之
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值