Unet已死，Transformer当立！详细解读基于DiT的开源视频生成大模型EasyAnimate

沉迷单车的追风少年

已于 2024-06-24 10:26:59 修改

阅读量1.3k

点赞数 62

分类专栏： Diffusion Models与深度学习文章标签： transformer 深度学习人工智能扩散模型 AIGC

于 2024-06-21 10:57:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41895747/article/details/139827865

版权

Diffusion Models与深度学习专栏收录该内容

该专栏为热销专栏榜第29名

163 篇文章 2566 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Diffusion Models视频生成-博客汇总

前言：最近阿里云PIA团队开源了基于Diffusion Transformer结构的视频生成模型EasyAnimate，并且提出了专门针对视频的slice VAE，对于目前基于Unet结构的视频生成最好如SVD形成了降维打击，不论是生成质量、生成时长上都是遥遥领先。这篇博客详细解读一下EasyAnimate的技术报告《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》

目录

Video DiT结构

三阶段训练

数据集清洗策略

贡献概述

EasyAnimate是一种用于视频生成的高级方法，它利用 Transformer 架构的力量来实现高性能结果。作者通过扩展了最初设计用于 2D 图像合成的 DiT 框架，通过结合运动模块块来适应 3D 视频生成的复杂性。它用于捕获时间动态，从而确保产生一致的帧和无缝的运动转换。运动模块可以适应各种 DiT 基线方法来生成具有不同风格的视频。它还可以在训练

了解本专栏

超级会员免费看

沉迷单车的追风少年

关注

62
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
6
评论
Unet已死，Transformer当立！详细解读基于DiT的开源视频生成大模型EasyAnimate

最近阿里云PIA团队开源了基于Diffusion Transformer结构的视频生成模型EasyAnimate，并且提出了专门针对视频的slice VAE，对于目前基于Unet结构的视频生成最好如SVD形成了降维打击，不论是生成质量、生成时长上都是遥遥领先。这篇博客详细解读一下EasyAnimate的技术报告《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沉迷单车的追风少年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。