AIGC视频生成算法/模型总结

这里,我们汇总前面完成的工作(图像生成方面的研究),总结近两年来突出的视频生成算法/模型,并展望未来的工作计划(视频生成)。

在这里插入图片描述

前情提要——图像生成

此前,我们深入钻研图像生成领域,对一系列关键模型展开系统性研究。从广泛应用且不断拓展的Stable Diffusion及其各类微调版本,到Open AI创意新颖的DALL·E系列,再到国产自主创新特色的CogView系列。

  1. Stable Diffusion:https://blog.csdn.net/haopinglianlian/category_12834919.html
  2. DALL·E系列:https://blog.csdn.net/haopinglianlian/category_12861695.html
  3. CogView系列:https://blog.csdn.net/haopinglianlian/category_12872391.html

在研究过程中,我们还对涉及多模态技术的相关论文进行了详细解读,力求精准把握图像生成与多模态融合的前沿技术脉络 。

后续介绍——视频生成

在接下来的这段时间,我们将持续深入探究 AIGC 在视觉领域的蓬勃发展,聚焦于视频生成这一极具魅力与潜力的方向。

本系列内容主要围绕近两年涌现的各类模型展开,并且以 2024 年初(确切地说,是以 Sora 的出现)作为关键分水岭,将整个内容划分为两个鲜明的部分,以便更清晰、更有条理地为您呈现视频生成领域的前沿动态与技术演进。

之前的进展

在这里插入图片描述

图源:https://arxiv.org/pdf/2402.17177

2023年进展

2024年(Sora)之前的AIGC视频生成模型/论文时间线如下所示:
在这里插入图片描述

图源:https://twitter.com/venturetwins/status/1741147864498397328

这里我们不会详细介绍每一个模型,会选择性挑选部分有代表性和创新性研究的模型/论文进行研究。例如:

  1. Runway的Gen系列
  2. Meta的Emu Video和Emu Edit
  3. 字节跳动的PixelDance【于23年11月发布论文】和 Seaweed【论文未发布】。
  4. Pika1.0]
  5. SVD

其中,可能会涉及到一些多模态论文,我们也会进行详细的解读,例如:

ViViT: A Video Vision Transformer

VDT: General-purpose Video Diffusion Transformers via Mask Modeling

Temporally Consistent Transformers for Video Generation

Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

2024年进展

在2024年,Sora的爆火,将视频生成带入了高潮,这一年,整个AI领域都在高速发展,2024年(Sora)之后的AI模型如下:
在这里插入图片描述

图源:https://huggingface.co/spaces/reach-vb/2024-ai-timeline

其中在视频领域的模型有:

以下是按照月份梳理出的视频生成相关内容:

二月

  • OpenAI宣布推出可制作长达一分钟视频的Sora模型,该模型当时尚未向公众发布。

五月

  • Google发布视频创作模型Veo,同时还宣布推出具有多模式功能,用于实时音频和视频接收的Astra模型 。

六月

  • Runway推出用于视频生成的新型AI模型Gen3 Alpha。

八月

  • Luma推出用于视频创作的Dream Machine 1.5型号。

九月

  • 视频生成模型KLING 1.5发布。

十月

  • Meta推出Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型AI模型。
  • Pika推出视频模型1.5以及“Pika效果”。
  • Adobe宣布其视频创作模型Firefly Video。

十二月

  • 亚马逊推出名为NOVA的新系列模型,专为文本、图像和视频处理而设计。
  • OpenAI发布视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版,还推出GPT4o的直播视频模式。
  • 谷歌推出测试版视频生成模型Veo 2,能够生成长达两分钟的4K视频。
  • Pika Labs发布其人工智能视频生成器的最新版本2.0。
  • Meta推出Apollo,这是一种有三种不同尺寸的视频生成模型。
  • 视频生成模型Kling 1.6发布,性能显著提升。

2024年的视频生成模型/论文,我们根据上面的综述中,我们除了会详细介绍Sora,以及之前已介绍过的系列模型的最新迭代/进展,还会挑一部分有特点的模型进行解读。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值