CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

1 篇文章 0 订阅

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer[2024,8,14]

Diffusers
Github
CogVideoX-2b : 只开源了2B的模型,5B模型目前没有开源.

清华智普最新的T2V模型,目前测试下来在第二梯队左右,相比于快手的可灵,Luma等还要差一点(至于现在没啥消息的Sora是另一回事了).可以生成460x720的6s视频,但是fps只有8.

Method

DiT Architecture

CogVideoX_2024-08-15_

prompt经过T5的到的Embedding和Video经过VAE得到的Embedding在Sequence层面Cat在一起,由于没有经过Norm的操作,这两个embedding完全不一致,利用两个完全独立的AdaLyaer来映射为不同的Scale参数.

Block的设计参看代码,是最直接的方法.

3D causal VAE

CogVideoX_2024-08-15_

在训练VAE采用了3D causal Conv方式(当前帧只和后面帧进行连接,在h,w上不做限制,类似于NLP中的causal方式),能够压缩 8x8x4 倍.

PE

采用了3D RoPE的方式,在(x,y,t)三个维度上都做了RoPE,并且三个PE在Channel维度上分别占用 3 / 8 , 3 / 8 , 2 / 8 3/8,3/8,2/8 3/8,3/8,2/8

other tricks

  • 训练3D VAE的时候加上了L2 Loss ,LPIPS perceptual loss, GAN loss(from 3D discriminator).
  • 图像和视频混合训练,并且不固定视频和图像出现的位置,论文表示之前图像的视频混合训练都是前固定帧数为图像,后面固定帧数为视频,这样等同于训练了两个独立的模型,对于模型的理解能力不能得到有效提高.

CogVideoX_2024-08-15_

  • t采样方式,之前关于时间步t的采样都是均匀随机从[1,T]中采样,但是这种方式在模型每一步更新中不能保证是均匀采样的,论文认为这种方式会对模型训练具有一定影响.因此论文为每一张卡设定了一个采样区间 [ t i , t i + 1 ] [t_i,t_{i+1}] [ti,ti+1],这样能够保证每次模型更新都是均匀采样得到的.Loss更加稳定,结果如下(d).

CogVideoX_2024-08-15_

  • 模型训练方式也是采用在LQ视频下预训练,在HQ视频下微调的方式,最后在高质量的文本-视频对下进行微调.
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Q: 什么是“调色板:图像到图像扩散模型”? A: 调色板:图像到图像扩散模型是一种图像处理技术,它利用调色板(一组预定义的颜色)将一张图像转换成另一张图像。这种技术通常使用扩散模型,即在图像中扩散颜色以达到所需效果。这种方法可以应用于许多应用场景,例如图像增强和风格迁移。 ### 回答2: Palette是一个图像到图像扩散模型,它是一种生成模型,以像素为单位从输入图像中生成输出图像。使用深度学习技术,Palette能够自动生成与原始图像相似但不相同的图像,从而为艺术创意和设计领域提供了新的可能性。Palette基于卷积神经网络,其特点是细粒度的像素级平滑,使得生成的图像具有更高的真实感。 Palette的工作原理为,通过输入图像所包含的像素信息,生成一个低分辨率的初始图像,然后通过逐层的向上采样过程,不断提高分辨率并增加图像的细节信息。在这个过程中,Palette会对图像的颜色和纹理进行抽象和重新组合,从而产生出各种不同的图像效果。根据不同的训练数据和训练方式,Palette可以生成不同的风格和效果,比如艺术风格、手绘效果等。 Palette可以应用于许多领域,比如品牌设计、个人艺术创作、影视特效等。在品牌设计方面,Palette可以帮助品牌创造出独特的视觉效果,从而提高品牌认知度和影响力。在个人艺术创作方面,Palette为艺术家提供了全新的创作思路,他们可以使用Palette生成各种不同风格的图像,从而拓宽他们的创作领域。在影视特效方面,Palette可以帮助电影制作团队生成各种特殊效果的图像,从而使电影更为逼真和震撼。 总之,Palette是一个生成模型,其特点是在像素级别上对图像进行平滑和重组,从而生成各种不同风格和效果的图像。Palette的应用领域非常广泛,如品牌设计、艺术创作和影视特效等。未来,Palette将继续发展,为我们带来更多的惊喜和创新。 ### 回答3: palette: image-to-image diffusion models是一种基于图像扩散模型的颜色调色板生成方法。这种方法旨在从给定的目标图像中提取一组相似的颜色,以便在新的图像中使用。这些颜色可以是某个图像的主要色调,也可以是某个颜色调色板中的色彩。 palette: image-to-image diffusion models方法的基本思路是通过使用图像扩散模型,使得每个像素都可以“扩散”到其周围的像素上。这种扩散能够按照某种规则,将相邻的像素颜色进行平滑化处理,从而能够生成更加自然的颜色渐变效果。使用这种方法可以很快地生成一个适合于目标图像的颜色调色板。 palette: image-to-image diffusion models方法的优点在于可以自动地从目标图像中提取相似颜色,并根据这些颜色生成一个合适的颜色调色板。这种方法可以避免手动选择颜色,从而节省时间和精力。此外,使用图像扩散模型的方法可以使所生成的颜色调色板更加平滑,同时可以保持颜色之间的相关性,从而更加适合于图像处理任务。 需要注意的是,palette: image-to-image diffusion models方法是一种机器学习方法,需要使用具有相关背景知识的开发人员进行开发和调试。因此,在使用这种方法之前,需要对机器学习和图像处理等方面有一定的了解和掌握。同时,在实际应用中,也需要根据特定的需求对方法进行具体的调整和优化,以便获得最佳的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东风中的蒟蒻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值