【论文笔记】CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

CogVideo是一个94亿参数的Transformer模型,用于文本到视频生成。通过多帧率分层训练和递归插值方法,生成高质量视频并用新的视频-文本匹配度评估性能。模型在机器和人类评估中均表现出色,是首个开源的大规模预训练文本到视频模型。
摘要由CSDN通过智能技术生成

声明

不定期更新自己精度论文,通俗易懂,初级小白也可以理解

涉及范围:深度学习方向,包括 CV、NLP、Data Fusion

 

论文标题:CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

论文链接:https://arxiv.org/abs/2205.15868

论文代码:https://github.com/THUDM/CogVideo

发表时间:2022年5月

创新点

1. 提出了一种基于 Transformer 的大规模预训练模型 CogVideo,用于文本到视频的生成。该模型使用了94亿个参数,采用了多帧率分层训练策略,能够生成高质量的视频片段。

2. 提出了一种新的视频评估方法,称为“视频-文本匹配度(VTM)”,用于评估生成的视频片段与输入文本的匹配程度。该方法能够更准确地评估模型的性能,避免了传统评估方法中的主观因素。

Abstract

大规模预训练的 Transformer 模型已经在文本(如GPT-3)和文本到图像(如DALL-E和CogView)生成方面取得了里程碑式的成果。然而,将其应用于视频生成仍然面临许多挑战:潜在的巨大计算成本使得从头开始训练不可承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。

在本文中,作者提出了一个9B参数的 Transformer 模型CogVideo,通过继承预训练的文本到图像模型 CogView2 进行训练。还提出了多帧率分层训练策略,以更好地对齐文本和视频片段。作为(可能是)第一个开源的大规模预训练文本到视频模型,CogVideo在机器和人类评估中都表现出了比公开可用的其他模型更好的性能。

Method

CogVideo的输入是一段文本描述,输出是一段与文本描述相对应的视频片段。

为了将文本描述转换为视频片段,CogVideo采用了一种基于递归插值的方法,即将文本描述分解为多个子描述,然后逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。 

递归插值包括两个阶段:顺序生成和递归插值。

在顺序生成阶段,模型根据文本描述生成一组关键帧,这些关键帧是视频片段中最重要的帧,用于确定视频片段的内容和结构。

在递归插值阶段,模型根据文本描述和已生成的关键帧,逐步生成中间帧,以填充关键帧之间的空白。

具体来说,模型将已生成的关键帧分成多个块,然后在每个块之间插入中间帧,以逐步生成完整的视频片段。在递归插值的过程中,模型会根据文本描述和已生成的帧,动态调整帧率和插值方式,以确保生成的视频片段与文本描述相符合。

CogVideo 的主干是一个双通道注意力的Transformer模型,其中包含48层、48个注意力头和9.4亿个参数。

其中,6亿个参数是从 CogView2 模型中继承而来的,包括位置感知的前馈网络、双通道注意力的空间通道、第一帧的位置嵌入以及所有图像和文本词汇的嵌入。

CogVideo 的 Transformer 结构与 CogView 模型的实现几乎相同,采用了夹层归一化和 PB-Relax 等技术来稳定训练。此外,CogVideo 还采用了一种称为 Shifted CogLM attention window 的注意力窗口,用于递归插值模型的实现。

夹层归一化的主要特点:它可以更好地保留网络层的原始特征,同时增强网络的表达能力和稳定性。作者使用夹层归一化,主要希望网络能够更稳定的表达。因为毕竟是生成的嘛!

Shifted CogLM attention window 是 CogVideo 模型中用于递归插值的一种注意力窗口机制。它是对标准的CogLM attention window的一种改进,可以有效地减少递归插值过程中的计算成本和内存占用。

具体来说,Shifted CogLM attention window 是一种基于滑动窗口的注意力机制,它将注意力窗口从固定大小的矩形窗口改为可变大小的滑动窗口。在递归插值的过程中,Shifted CogLM attention window 可以根据当前生成的帧和已生成的帧,动态调整窗口的大小和位置,以使注意力机制更加准确和高效。

与标准的 CogLM attention window 相比,Shifted CogLM attention window 的优点在于它可以减少递归插值过程中的计算成本和内存占用。由于 Shifted CogLM attention window 采用了滑动窗口的方式,它可以在不增加计算成本的情况下,处理更大的视频片段和更长的文本描述。

Experiments

消融研究中的视频样本,在类别标签和前5个标签上生成 Kinetics-600 中的帧

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来自γ星的赛亚人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值