One-Minute Video Generation with Test-Time Training

主要内容

  1. 研究背景:当前视频生成技术存在局限,Transformer因自注意力层在处理长上下文时效率低,难以生成一分钟视频;RNN层虽处理长上下文成本低,但生成复杂故事和动态运动视频能力不足。
  2. TTT层原理:通过自监督学习将历史上下文压缩到隐藏状态,隐藏状态本身是一个可训练的神经网络(如两层MLP),在测试时更新隐藏状态相当于训练模型,且可通过学习自监督任务来优化。
  3. 方法:在预训练的Diffusion Transformer中添加TTT层并微调,对模型架构进行修改,包括门控机制、双向处理,设计整体管道,采用多阶段上下文扩展和数据集构建,还介绍了并行化和芯片上张量并行技术。
  4. 评估:对TTT - MLP和五个基线模型进行人类评估,从文本跟随、运动自然度、美学、时间一致性四个维度对比,结果显示TTT - MLP平均比第二好的方法高34 Elo分,但在短上下文、运行时间和视频质量方面存在局限性。
  5. 未来工作:提出优化TTT - MLP内核以提高效率、探索更好的集成策略、扩展生成更长视频并使用更大隐藏状态等方向。

创新点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值