多模态生成论文方法对比-CSDN博客

本文链接：https://blog.csdn.net/sinat_25267157/article/details/141822994

1. versatile diffusion

此论文是后续几个多模态生成模型得奠基之作，首次提出在一个统一的模型中处理文本到图像、图像到文本、图像变体和文本变体的多流任务。其贡献是提出统一的多流扩散框架，由可共享和可交换的层模块组成，实现了超越图像和文本的跨模态通用性。

VAEs和CLIP作为网络的两个关键模块--潜在编码器和上下文编码器。
VD中单个流的正式定义是使用模态m的上下文来合成模态n的特征。在该框架中，可以根据输入上下文和输出结果的模式激活或静音层。如图2所示，将所有扩散器层分为三组：全局层（与流无关的层，始终被激活。是时间嵌入层）、数据层（输出相关层，当网络生成相应的输出类型时，这些层将被激活。数据层是残差块）和上下文层（上下文相关层，当输入相应的上下文类型时，这些层将被激活。上下文层是交叉注意力）。
VD完整模型包括三个组件：a) 多流多模态扩散框架； b) VAE：将数据样本转换为潜在表示； c) 上下文编码器：将上下文编码为嵌入embedding。
Diffuser:我们使用带有交叉注意的UNet作为扩散器网络的主要结构。UNet 部分遵循 SD [73]，采用残差块作为图像数据层，交叉注意作为文本和图像上下文层。对于文本数据层，我们提出了全连接残差块 (FCResBlock)，它将 768 维文本潜在向量扩展为 320 × 4 的隐藏特征，并遵循与 GroupNorms [103]、SiLU [20] 和跳过连接类似的残差块范式（见图 4）
VAE：
1. 图像VAE：采用SD中得Autoencoder-KL
2. 文本 VAE：采用 Optimus [53] 。Optimus 由 Bert [16] 文本编码器和 GPT2 [67] 文本解码器组成，通过