AIGC视频生成算法/模型总结

好评笔记

已于 2025-01-25 23:00:25 修改

阅读量1.4k

点赞数 20

文章标签： AIGC 音视频人工智能计算机视觉深度学习机器学习春招

于 2025-01-15 14:51:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haopinglianlian/article/details/145160226

版权

补档专栏收录该内容

110 篇文章

订阅专栏

这里，我们汇总前面完成的工作（图像生成方面的研究），总结近两年来突出的视频生成算法/模型，并展望未来的工作计划（视频生成）。

在这里插入图片描述

文章目录

前情提要——图像生成
后续介绍——视频生成
之前的进展
2023年进展
2024年进展

前情提要——图像生成

此前，我们深入钻研图像生成领域，对一系列关键模型展开系统性研究。从广泛应用且不断拓展的Stable Diffusion及其各类微调版本，到Open AI创意新颖的DALL·E系列，再到国产自主创新特色的CogView系列。

Stable Diffusion：https://blog.csdn.net/haopinglianlian/category_12834919.html
- 模型微调：https://blog.csdn.net/haopinglianlian/category_12856751.html
DALL·E系列：https://blog.csdn.net/haopinglianlian/category_12861695.html
CogView系列：https://blog.csdn.net/haopinglianlian/category_12872391.html

在研究过程中，我们还对涉及多模态技术的相关论文进行了详细解读，力求精准把握图像生成与多模态融合的前沿技术脉络。

多模态论文解读：https://blog.csdn.net/haopinglianlian/category_12865934.html

后续介绍——视频生成

在接下来的这段时间，我们将持续深入探究 AIGC 在视觉领域的蓬勃发展，聚焦于视频生成这一极具魅力与潜力的方向。

本系列内容主要围绕近两年涌现的各类模型展开，并且以 2024 年初（确切地说，是以 Sora 的出现）作为关键分水岭，将整个内容划分为两个鲜明的部分，以便更清晰、更有条理地为您呈现视频生成领域的前沿动态与技术演进。

之前的进展

在这里插入图片描述

图源：https://arxiv.org/pdf/2402.17177

2023年进展

2024年（Sora）之前的AIGC视频生成模型/论文时间线如下所示：
在这里插入图片描述

图源：https://twitter.com/venturetwins/status/1741147864498397328

这里我们不会详细介绍每一个模型，会选择性挑选部分有代表性和创新性研究的模型/论文进行研究。例如：

Runway的Gen系列
Meta的Emu Video和Emu Edit
字节跳动的PixelDance【于23年11月发布论文】和 Seaweed【论文未发布】。
Pika1.0]
SVD

其中，可能会涉及到一些多模态论文，我们也会进行详细的解读，例如：

ViViT: A Video Vision Transformer

VDT: General-purpose Video Diffusion Transformers via Mask Modeling

Temporally Consistent Transformers for Video Generation

Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

2024年进展

在2024年，Sora的爆火，将视频生成带入了高潮，这一年，整个AI领域都在高速发展，2024年（Sora）之后的AI模型如下：
在这里插入图片描述

图源：https://huggingface.co/spaces/reach-vb/2024-ai-timeline

其中在视频领域的模型有：

以下是按照月份梳理出的视频生成相关内容：

二月

OpenAI宣布推出可制作长达一分钟视频的Sora模型，该模型当时尚未向公众发布。

五月

Google发布视频创作模型Veo，同时还宣布推出具有多模式功能，用于实时音频和视频接收的Astra模型。

六月

Runway推出用于视频生成的新型AI模型Gen3 Alpha。

八月

Luma推出用于视频创作的Dream Machine 1.5型号。

九月

视频生成模型KLING 1.5发布。

十月

Meta推出Movie Gen，这是一种根据文本输入生成视频、图像和音频的新型AI模型。
Pika推出视频模型1.5以及“Pika效果”。
Adobe宣布其视频创作模型Firefly Video。

十二月

亚马逊推出名为NOVA的新系列模型，专为文本、图像和视频处理而设计。
OpenAI发布视频生成模型SORA，以及面向高级订阅者的O1和O1 Pro完整版，还推出GPT4o的直播视频模式。
谷歌推出测试版视频生成模型Veo 2，能够生成长达两分钟的4K视频。
Pika Labs发布其人工智能视频生成器的最新版本2.0。
Meta推出Apollo，这是一种有三种不同尺寸的视频生成模型。
视频生成模型Kling 1.6发布，性能显著提升。

2024年的视频生成模型/论文，我们根据上面的综述中，我们除了会详细介绍Sora，以及之前已介绍过的系列模型的最新迭代/进展，还会挑一部分有特点的模型进行解读。

博客等级

码龄1年

190
原创

4991
点赞

4022
收藏

8217
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

多模态论文笔记——NaViT
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
多模态论文笔记——TECO
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
多模态论文笔记——Coca
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
深度学习笔记——激活函数
青云交: 深度学习笔记——激活函数优质好文
SD模型微调之LoRA
qq_57739451: 请问我的模型是在sd基础上微调的controlnet，我想用controlnet微调后的模型进行lora微调，怎么进行呢

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。