Sora整体训练流程 视频编码DIT语言模型 预测的时候输入的是纯噪音。 Sora训练样本特点 视频编码 *将一帧一帧图片转化为20 * 30 3 的patch,就是1800维特征。 转化为1800维特征太长了,需要将其压缩,转化为短向量 扩散学习 文字编码