多模态生成论文方法对比

1. versatile diffusion

此论文是后续几个多模态生成模型得奠基之作,首次提出在一个统一的模型中处理文本到图像、图像到文本、图像变体和文本变体的多流任务。其贡献是提出统一的多流扩散框架,由可共享和可交换的层模块组成,实现了超越图像和文本的跨模态通用性。

1.1 模型架构

  1. VAEs和CLIP作为网络的两个关键模块--潜在编码器和上下文编码器。
  2. VD中单个流的正式定义是使用模态m的上下文来合成模态n的特征。在该框架中,可以根据输入上下文和输出结果的模式激活或静音层。如图2所示,将所有扩散器层分为三组:全局层(与流无关的层,始终被激活。是时间嵌入层)、数据层(输出相关层,当网络生成相应的输出类型时,这些层将被激活。数据层是残差块)和上下文层(上下文相关层,当输入相应的上下文类型时,这些层将被激活。上下文层是交叉注意力)。
  3. VD完整模型包括三个组件:a) 多流多模态扩散框架; b) VAE:将数据样本转换为潜在表示; c) 上下文编码器:将上下文编码为嵌入embedding。
  4. Diffuser:我们使用带有交叉注意的UNet作为扩散器网络的主要结构。UNet 部分遵循 SD [73],采用残差块作为图像数据层,交叉注意作为文本和图像上下文层。对于文本数据层,我们提出了全连接残差块 (FCResBlock),它将 768 维文本潜在向量扩展为 320 × 4 的隐藏特征,并遵循与 GroupNorms [103]、SiLU [20] 和跳过连接类似的残差块范式(见图 4)
  5. VAE:
    1. 图像VAE:采用SD中得Autoencoder-KL
    2. 文本 VAE:采用 Optimus [53] 。Optimus 由 Bert [16] 文本编码器和 GPT2 [67] 文本解码器组成,通过
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值