1. versatile diffusion
此论文是后续几个多模态生成模型得奠基之作,首次提出在一个统一的模型中处理文本到图像、图像到文本、图像变体和文本变体的多流任务。其贡献是提出统一的多流扩散框架,由可共享和可交换的层模块组成,实现了超越图像和文本的跨模态通用性。
1.1 模型架构
- VAEs和CLIP作为网络的两个关键模块--潜在编码器和上下文编码器。
- VD中单个流的正式定义是使用模态m的上下文来合成模态n的特征。在该框架中,可以根据输入上下文和输出结果的模式激活或静音层。如图2所示,将所有扩散器层分为三组:全局层(与流无关的层,始终被激活。是时间嵌入层)、数据层(输出相关层,当网络生成相应的输出类型时,这些层将被激活。数据层是残差块)和上下文层(上下文相关层,当输入相应的上下文类型时,这些层将被激活。上下文层是交叉注意力)。
- VD完整模型包括三个组件:a) 多流多模态扩散框架; b) VAE:将数据样本转换为潜在表示; c) 上下文编码器:将上下文编码为嵌入embedding。
- Diffuser:我们使用带有交叉注意的UNet作为扩散器网络的主要结构。UNet 部分遵循 SD [73],采用残差块作为图像数据层,交叉注意作为文本和图像上下文层。对于文本数据层,我们提出了全连接残差块 (FCResBlock),它将 768 维文本潜在向量扩展为 320 × 4 的隐藏特征,并遵循与 GroupNorms [103]、SiLU [20] 和跳过连接类似的残差块范式(见图 4)
- VAE:
- 图像VAE:采用SD中得Autoencoder-KL
- 文本 VAE:采用 Optimus [53] 。Optimus 由 Bert [16] 文本编码器和 GPT2 [67] 文本解码器组成,通过