CogVideo: 开创性的大规模文本到视频生成模型

最新推荐文章于 2025-03-26 15:39:06 发布

m0_56734068

最新推荐文章于 2025-03-26 15:39:06 发布

阅读量668

点赞数 27

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_56734068/article/details/143179609

版权

CogVideo

CogVideo:开创文本到视频生成的新纪元

在人工智能快速发展的今天,文本到图像生成已经取得了令人瞩目的成就。然而,文本到视频的生成一直是一个更具挑战性的任务。近日,清华大学知识工程实验室(KEG)的研究团队推出了一个突破性的模型 - CogVideo,为这一领域带来了新的突破。

CogVideo的诞生背景

大规模预训练Transformer模型在文本生成(如GPT-3)和文本到图像生成(如DALL-E和CogView)方面已经创造了里程碑式的成果。然而,将这种方法应用到视频生成上仍面临着诸多挑战:

潜在的巨大计算成本使得从头开始训练变得难以承受。
文本-视频数据集的稀缺性和弱相关性阻碍了模型对复杂运动语义的理解。

为了克服这些挑战,CogVideo团队采用了一种创新的方法。

CogVideo的核心技术

CogVideo是一个拥有90亿参数的Transformer模型,其训练方式颇具创意:

继承预训练模型: CogVideo继承了一个预训练的文本到图像模型CogView2,这大大降低了训练成本。
多帧率分层训练策略: 研究团队提出了这一新颖的策略,以更好地对齐文本和视频片段。这种方法显著提高了模型对动态内容的理解和生成能力。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_56734068

关注关注

27
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

文生视频综述

liguandong

05-28

9738

文生视频的研究正在呈指数级发展，但现有工作在上下文一致性上仍有限制，同时还面临其他诸多挑战。在这篇博文中，我们介绍了文生视频模型的限制、独特挑战和当前状态。我们还看到了最初为其他任务设计的架构范例如何赋能文生视频任务的巨大飞跃，以及这对未来研究意味着什么。虽然进展令人印象深刻，但与文生图模型相比，文生视频模型还有很长的路要走。最后，我们还展示了如何通过 Hub 上的应用演示来使用这些模型，以及如何将这些模型作为 Diffusers 流水线的一部分来完成各种任务。

Diffusion Models专栏文章汇总：入门与实战

最新发布

AppMall的博客

03-26

328

CogVideo 是由智谱 AI 联合清华大学开发的开源视频生成模型，其升级版 CogVideoX 于 2024 年发布，集成于智谱的 AI 视频生成工具清影（Ying）中。该模型基于多模态技术，支持通过文本或图片生成高质量视频，具备快速响应、高指令遵循能力和物理世界运动还原等特点，适用于教育、影视、营销等多个领域。

CogVideo - 文生视频、图生视频

AI工程化、开源分享、文档翻译、代码笔记

09-18

2919

CogVideoX是清影同源的开源版本视频生成模型。模型名模型介绍入门级模型，兼顾兼容性。运行，二次开发成本低。视频生成质量更高，视觉效果更好的更大尺寸模型。推理精度FP16*(推荐), BF16, FP32，FP8*，INT8，不支持INT4BF16(推荐), FP16, FP32，FP8*，INT8，不支持INT4单GPU显存消耗SATFP16: 18GBdiffusers FP16: 4GB起*diffusers INT8(torchao): 3.6G起*SATBF16: 26GB。

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

读书郎

10-14

966

大规模预训练transformers在文本 (GPT-3) 和文本到图像 (DALL-E 和 CogView) 生成方面创造了里程碑。它应用于视频生成仍然面临着许多挑战：潜在的巨大计算成本使得从头开始训练无法承受；文本视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。在这项工作中，我们提出了 9B 参数transformer CogVideo，通过继承预训练的文本到图像模型 CogView2 进行训练。我们还提出了多帧速率分层训练策略来更好地对齐文本和视频剪辑。

探索技术新星：CogVideo - 视频理解与处理的利器

gitblog_00043的博客

04-25

624

探索技术新星：CogVideo - 视频理解与处理的利器去发现同类优质开源项目:https://gitcode.com/ 项目简介是一个由清华大学计算机系THUDM团队开发的开源项目，致力于提供高效、易用的视频理解和处理工具。这个项目利用深度学习技术，帮助开发者和研究者快速实现对视频数据的智能分析，包括视频分类、目标检测、动作识别等多种任务。技术分析深度学习框架 CogVideo构建于Py...

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

斯人若彩虹，遇上方知有！

03-23

2650

Mora是一个基于多智能体框架的通用视频生成系统。它旨在解决现有视频生成模型通常专注于特定任务或场景的问题，如人脸生成、自然景观生成等。通过使用多智能体框架，Mora 能够在不同任务和场景之间进行灵活切换，实现更加通用的视频生成。在 Mora 中，每个智能体负责处理特定的任务或场景，例如人脸生成、自然景观生成等。这些智能体可以独立地进行训练和优化，以在其各自的领域内实现最佳性能。然后，通过一个协调器来整合这些智能体的输出，生成最终的视频。

AI视频创作原理

08-17

1087

I2VGen-XL由达摩院研发的高清视频生成基础模型之一，其核心部分包含两个阶段，分别解决语义一致性和清晰度的问题，参数量共计约37亿，模型经过在大规模视频和图像数据混合预训练，并在少量精品数据上微调得到，该数据分布广泛、类别多样化，模型对不同的数据均有良好的泛化性。随着文生视频模型的发展，出现了更多的多模态视频文本数据集，以及更好、更通用的数据集。在这个公式中，E是预训练的编码器，x是给定的视频，ϵ是噪声，c是选定的条件，t是时间步长，zt是噪声破坏的潜在表示。AI视频创作的任务面临着多方面的独特挑战。

CogVideo模型部署教程

SJJS_1的博客

11-08

2724

CogVideo 是一款在开源社区 GitHub 上备受瞩目的 AI 驱动视频生成解决方案，其核心技术依托于前沿的深度学习算法和模型架构。以下是对 CogVideo 的详细介绍。

【论文笔记】CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

m0_58678659的博客

06-12

2212

大规模预训练的 Transformer 模型已经在文本（如GPT-3）和文本到图像（如DALL-E和CogView）生成方面取得了里程碑式的成果。然而，将其应用于视频生成仍然面临许多挑战：潜在的巨大计算成本使得从头开始训练不可承受；文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。在本文中，作者提出了一个9B参数的 Transformer 模型CogVideo，通过继承预训练的文本到图像模型 CogView2 进行训练。还提出了多帧率分层训练策略，以更好地对齐文本和视频片段。

MLM之CogVideo：CogVideo(国产版Sora)的简介、安装和使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

08-07

2142

MLM之CogVideo：CogVideo的简介、安装和使用方法、案例应用之详细攻略目录 CogVideo的简介 CogVideo的安装和使用方法 CogVideo的案例应用 CogVideo的简介 2022年5月19日，智谱AI开源了 CogVideo。在2024年8月7日正式开源。地址：https://github.com/THUDM/CogVideo 1、项目更新 🔥News:2024/8/7: CogVideoX 已经合并入diffuser

这个AI爆火！输入1句话，生成1段视频！清华提出CogVideo：最大的文本生成视频模型...

阿木寺的博客

06-08

4223

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>CV微信技术交流群萧箫发自凹非寺转载自：量子位（QbitAI）一周不到，AI画师又“进阶”了，还是一个大跨步——直接1句话生成视频的那种。输入“一个下午在海滩上奔跑的女人”，立刻就蹦出一个4秒32帧的小片段：又或是输入“一颗燃烧的心”，就能看见一只被火焰包裹的心：这个最新的文本-...

CogVideo 实测，智谱「清影」AI视频生成，全民免费，连 API 都开放了！

u010522887的专栏

07-27

2493

智谱AI视频生成智能体「清影」，全民免费，连 API 都开放了

CogVideoX-5b及I2V详解（包含代码、论文详解）

sherlockMa的博客

10-16

6169

CogVideoX是由智谱AI推出的一款先进的视频生成模型，它通过深度学习和计算机视觉技术，能够将简短的文本描述或静态图片转化为高质量、具有视觉吸引力的动态视频。这一技术的出现极大地拓展了视频创作的边界，为用户提供了一种全新的视频创作体验。

AI黑科技！CogVideo：文本秒变视频，创作从此颠覆想象！

2401_83063795的博客

03-09

1884

CogVideo：创意即现，影像随形！让想象瞬间成影，多维场景视频即刻生成！ - 精选真开源，释放新价值。

清华&BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo，含94亿超大参数量！代码即将开源！...

我爱计算机视觉

06-14

2790

关注公众号，发现CV技术之美我爱计算机视觉专业计算机视觉技术分享平台，“有价值有深度”，分享开源技术与最新论文解读，传播视觉技术的业内最佳实践。知乎/微博：我爱计算机视觉，官网 www.52cv.net 。KeyWords：深度学习、机器学习、计算机视觉、人工智能。公众号本篇分享论文『CogVideo: Large-scale Pretraining for Text-t...

NExT-GPT：开创性的端到端多模态语言模型系统

资源摘要信息:"NExT-GPT 是一个端到端的多模态大型语言模型系统，专注于处理和生成文本、图像、视频和音频等多种类型的数据。作为一个MM-LLM（多模态大型语言模型），它的出现标志着语言模型技术的一大进步，能够...