近期,文字生视频AI大模型Sora横空出世后,成为了人工领域讨论的焦点,人们震惊于它1分钟长视频的视频生成质量以及其强大的功能,引起了广泛的讨论。
Sora是怎么做到这个效果的呢,在OpenAI的官方网站,发布了技术报告,这篇报告从较高维度介绍了Sora的技术路径,(我们也在技术报告发布之初做了中文版的同步更新,详见这里:OpenAI新发布Sora技术文档(全文)),这篇报告中并未介绍其具体的技术点,但是列出了全部的参考文献。这些参考文献为我们提供了深入了解Sora技术背后的机会。本篇文章旨在通过研究这些文献,更好地理解Sora模型的原理和实现方法。
文献参考整体结构
首先,我们可以将这些论文分成几个模块,而每个模块里面还可以继续细分,这说明这些论文是有结构的,整个研究领域既有一个端到端(end-to-end)的方法论,同时也包括模型具体的操作层面的内容。
这些论文的来源有32篇,其中12篇直接发