华为昇腾AI芯片加持，9.1k Star 的 Open-Sora-Plan，国产Sora要来了吗

Aitrainee

已于 2024-04-15 12:54:46 修改

阅读量776

点赞数 19

文章标签：人工智能

于 2024-04-15 12:53:56 首次发布

本文链接：https://blog.csdn.net/lythinking/article/details/137775723

版权

Aitrainee | 公众号：AI进修生

哇，今天Github趋势榜第一啊，为了重现Sora，北大这个Open-Sora-Plan，希望通过开源社区力量的复现Sora，目前已支持国产AI芯片(华为昇腾），这回不用被卡脖子了吧，这个项目吸引了众多开发者的智慧和热情，目前在github上的星标已经高达9.1k，不过当前版本离目标差距还很大，仍需持续完善和快速迭代，团队热烈欢迎志同道合的你加入，这是一个汇聚相同技术热忱与求知欲的人们的号召。国产版的Sora还是离我们越来越近了。在这里插入图片描述

下面我们带入开发者（我们）的视角，介绍一下技术报告：

VideoGPT和Video VQ-VAE

想象一下你有一堆乐高积木，每个积木都是视频的一小部分。Video VQ-VAE的工作就像是找到最少的积木数量，同时确保用这些积木还能重建原始视频。这样做可以让视频占用更少的空间，而且我们还可以创造新的视频，就像用积木搭建新东西一样。VideoGPT则是用来指导如何搭建这些积木，以创造新的视频内容。

Open-Sora-Plan v1.0.0的改进

CausalVideoVAE的训练与推理： 想象你正在尝试用一张巨大的网捕捉时间的流逝，其中网眼代表视频中的每个小片段。我们现在有了一个更大更紧密的网（4×8×8的尺寸），它可以更有效地捕捉视频的细节，无论是在空间上（像是画面的广阔景象）还是时间上（像是动作的连贯性）。
图片视频联合训练： 这就像是训练一只鸟同时在水里游泳和在空中飞翔。我们教会了模型不仅能理解静态的图片，还能理解动态的视频。这使得模型能够更好地把握时间和空间的细节，从而创造出更高质量的视觉内容。

CausalVideoVAE的架构细节

CausalConv3D： 如果说之前我们用2D拼图解决问题，现在我们升级到了3D，让模型能同时理解图片（2D）和视频（3D）。特别地，模型会对视频的第一帧给予特别处理，因为那是整个视频故事的开头。
初始化方法： 我们使用了一种特别的“尾部初始化”方法，让模型能够在没有任何额外训练的情况下就能处理图片和视频。