华为昇腾AI芯片加持,9.1k Star 的 Open-Sora-Plan,国产Sora要来了吗

Aitrainee | 公众号:AI进修生

哇,今天Github趋势榜第一啊,为了重现Sora,北大这个Open-Sora-Plan,希望通过开源社区力量的复现Sora,目前已支持国产AI芯片(华为昇腾),这回不用被卡脖子了吧,这个项目吸引了众多开发者的智慧和热情,目前在github上的星标已经高达9.1k,不过当前版本离目标差距还很大,仍需持续完善和快速迭代,团队热烈欢迎志同道合的你加入,这是一个汇聚相同技术热忱与求知欲的人们的号召。国产版的Sora还是离我们越来越近了。在这里插入图片描述

下面我们带入开发者(我们)的视角,介绍一下技术报告:

VideoGPT和Video VQ-VAE

想象一下你有一堆乐高积木,每个积木都是视频的一小部分。Video VQ-VAE的工作就像是找到最少的积木数量,同时确保用这些积木还能重建原始视频。这样做可以让视频占用更少的空间,而且我们还可以创造新的视频,就像用积木搭建新东西一样。VideoGPT则是用来指导如何搭建这些积木,以创造新的视频内容。

Open-Sora-Plan v1.0.0的改进

  1. CausalVideoVAE的训练与推理: 想象你正在尝试用一张巨大的网捕捉时间的流逝,其中网眼代表视频中的每个小片段。我们现在有了一个更大更紧密的网(4×8×8的尺寸),它可以更有效地捕捉视频的细节,无论是在空间上(像是画面的广阔景象)还是时间上(像是动作的连贯性)。
  2. 图片视频联合训练: 这就像是训练一只鸟同时在水里游泳和在空中飞翔。我们教会了模型不仅能理解静态的图片,还能理解动态的视频。这使得模型能够更好地把握时间和空间的细节,从而创造出更高质量的视觉内容。

CausalVideoVAE的架构细节

  • CausalConv3D: 如果说之前我们用2D拼图解决问题,现在我们升级到了3D,让模型能同时理解图片(2D)和视频(3D)。特别地,模型会对视频的第一帧给予特别处理,因为那是整个视频故事的开头。在这里插入图片描述

  • 初始化方法: 我们使用了一种特别的“尾部初始化”方法,让模型能够在没有任何额外训练的情况下就能处理图片和视频。

训练与推理技巧

  • 损失曲线: 我们展示了两种不同初始化方法的效果。黄色赛车(尾部初始化)明显跑得更快更稳定,这告诉我们它是一个更好的起点。在这里插入图片描述

  • 推理技巧: 采用了一种称为tile convolution的技术,这样可以大大节省资源。

数据构建

  • 视频数据集: 我们收集了大量高质量的视频,确保它们没有不相关的水印,并且都是单一场景,这样数据就更加干净、专注。在这里插入图片描述

  • 文本注释: 我们还给这些视频配上了高质量的文字说明,有助于模型更好地理解视频内容,并在创造新视频时参考这些描述。

✨ AI算法工程师 | AIGC技术实践者 🚀
🎵 知音难求,自我修炼亦艰。
📚 吾生也有涯,而知也无涯。
🌌 AIGC时代,立志成为超级个体:
抓住前沿技术的机遇,与我们一起成为创新的超级个体。
✉️ 回复“群聊”,就能和大家嗨聊!

  • 公众号有最新咨询和AI工具教程
    在这里插入图片描述
  • 19
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aitrainee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值