CogVideo阅读笔记

传说故事

已于 2024-01-12 18:19:45 修改

阅读量649

点赞数 13

分类专栏：论文阅读文章标签：笔记

于 2024-01-12 14:55:35 首次发布

本文链接：https://blog.csdn.net/qq_43854103/article/details/135551626

版权

8 篇文章 0 订阅

订阅专栏

1. 基本信息

题目：CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
时间：2022.5
发表：ICLR2023
机构：Tsinghua University ，BAAI
作者：Wenyi Hong等
链接直达：github/paper/project
关键词：AIGC，text-to-video
概括：CogVideo是目前最大的通用领域文本到视频生成预训练模型，含94亿参数。CogVideo将预训练文本到图像生成模型（CogView2）有效地利用到文本到视频生成模型，并使用了多帧率分层训练策略。
摘要翻译：大规模预训练转换器在文本（GPT-3）和文本到图像（DALL-E 和 CogView）生成方面创造了里程碑。它在视频生成中的应用仍然面临许多挑战：潜在的巨大计算成本使得从头开始的训练难以承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型对复杂运动语义的理解。在这项工作中，我们提出了 9B 参数Transformer CogVideo，它通过继承预训练的文本到图像模型 CogView2 进行训练。我们还提出了多帧率分层训练策略，以更好地对齐文本和视频剪辑。作为（可能）第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人工评估方面远远优于所有公开可用的模型。

干了一件什么事：提出了 9B 参数Transformer，通过继承一个预训练的text-to-image模型CogView2进行训练。提出多帧率分层训练策略，以更好地对齐文本和video。
backbone：Transformer based。
CogVideo 中的多帧率分层生成框架（如图）：
CogVideo 中的多帧率分层生成框架。输入序列包括帧速率、文本、帧标记。[B] （Begin-of-image）是一个分隔符标记，继承自 CogView2。在第 1 阶段， $T_s$ 帧在帧速率和文本的条件下依次生成。然后在第 2 阶段，生成的帧被重新输入为双向注意力区域，以递归插值帧。帧速率可以在两个阶段进行调整。双向注意区域以蓝色突出显示，单向区域以绿色突出显示。