CogVideo阅读笔记


1. 基本信息

  • 题目:CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
  • 时间:2022.5
  • 发表:ICLR2023
  • 机构:Tsinghua University ,BAAI
  • 作者:Wenyi Hong等
  • 链接直达:github/paper/project
  • 关键词:AIGC,text-to-video
  • 概括:CogVideo是目前最大的通用领域文本到视频生成预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。
  • 摘要翻译:大规模预训练转换器在文本 (GPT-3) 和文本到图像(DALL-E 和 CogView)生成方面创造了里程碑。它在视频生成中的应用仍然面临许多挑战:潜在的巨大计算成本使得从头开始的训练难以承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型对复杂运动语义的理解。在这项工作中,我们提出了 9B 参数Transformer CogVideo,它通过继承预训练的文本到图像模型 CogView2 进行训练。我们还提出了多帧率分层训练策略,以更好地对齐文本和视频剪辑。作为(可能)第一个开源的大规模预训练文本到视频模型,CogVideo 在机器和人工评估方面远远优于所有公开可用的模型。

2. 理解(个人初步理解,随时修改)

  1. 干了一件什么事:提出了 9B 参数Transformer,通过继承一个预训练的text-to-image模型CogView2进行训练。提出多帧率分层训练策略,以更好地对齐文本和video。
  2. backbone:Transformer based。
  3. CogVideo 中的多帧率分层生成框架(如图):CogVideo 中的多帧率分层生成框架
    CogVideo 中的多帧率分层生成框架。输入序列包括帧速率、文本、帧标记。[B] (Begin-of-image) 是一个分隔符标记,继承自 CogView2。在第 1 阶段, T s T_s Ts 帧在帧速率和文本的条件下依次生成。然后在第 2 阶段,生成的帧被重新输入为双向注意力区域,以递归插值帧。帧速率可以在两个阶段进行调整。双向注意区域以蓝色突出显示,单向区域以绿色突出显示。

3. 精读

暂无


参考文献

  1. https:/
  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值