主要内容
- 研究背景:当前视频生成技术存在局限,Transformer因自注意力层在处理长上下文时效率低,难以生成一分钟视频;RNN层虽处理长上下文成本低,但生成复杂故事和动态运动视频能力不足。
- TTT层原理:通过自监督学习将历史上下文压缩到隐藏状态,隐藏状态本身是一个可训练的神经网络(如两层MLP),在测试时更新隐藏状态相当于训练模型,且可通过学习自监督任务来优化。
- 方法:在预训练的Diffusion Transformer中添加TTT层并微调,对模型架构进行修改,包括门控机制、双向处理,设计整体管道,采用多阶段上下文扩展和数据集构建,还介绍了并行化和芯片上张量并行技术。
- 评估:对TTT - MLP和五个基线模型进行人类评估,从文本跟随、运动自然度、美学、时间一致性四个维度对比,结果显示TTT - MLP平均比第二好的方法高34 Elo分,但在短上下文、运行时间和视频质量方面存在局限性。
- 未来工作:提出优化TTT - MLP内核以提高效率、探索更好的集成策略、扩展生成更长视频并使用更大隐藏状态等方向。