论文地址:https://arxiv.org/pdf/2211.08332.pdf
源码地址:https://github.com/shi-labs/versatile-diffusion
摘要
扩散模型的最新进展在许多生成任务中都取得了令人印象深刻的里程碑,而DALL-E2、Imagen和Stable diffusion等趋势作品引起了人们的极大兴趣。尽管形势变化很快,但最近的新方法关注的是扩展和性能,而不是容量,因此需要为单独的任务使用单独的模型。在这项工作中,我们将现有的单流扩散管道扩展为一个多任务多模态网络,称为通用扩散(VD),该网络在一个统一的模型中处理文本到图像、图像到文本和变体的多个流。VD的pipeline设计实例化了一个统一的多流扩散框架,由可共享和可交换的层模块组成,实现了超越图像和文本的跨模态通用性。
1. 引言
对多模态生成模型的研究仍然很少。以前,表现最好的生成视觉模型,生成对抗网络(GAN)仅仅关注特定的领域(即面孔,字体,自然场景等)以及具体的任务(图像修复,超分辨率,图像到图像的翻译等)。
扩散模型是基于似然的模型,它逐渐从高斯破坏中恢复图像内容。它已被证明在连接模态和任务方面是有效的,例如无条件生成、密度估计、超分辨率和文本到图像的生成。扩散模型的成功可以归因于几个方面。
- 训练比GAN网络更健壮,基于似然模型使得原理性更强,迭代精细化推理过程也以增加运行时间为代价扩展了模型能力。
- 最近的扩散模型如DALL-E2、Imagen和Stable diffusion的竞争性能得益于出色的数据收集,如LAION[80]、CC12M[12]、COYO[10]等。早期扩散模型的缺点,如数据饥饿和高推理成本,逐渐被更高效的结构和调度器所缓解。
- 到目前为止,这些工作几乎完全取决于单流扩散管道。尽管它们是跨模态的,但它们中的大多数都是在单个专门的生成任务(例如,文本到图像)上进行训练和评估的。
多功能扩散(VD),在一个统一的生成模型中全面解决文本,图像和变化。关键的底层技术是一种新的多流扩散框架,它将现有的单流扩散管道推广到同时处理多种模式和任务,同时有效地在它们之间共享信息。由于更大的容量以及捕获跨模态语义,VD不仅在上述支持的任务上表现良好,而且显著地派生了许多新功能,包括语义风格解耦、跨模态双上下文或多上下文生成(混合)。我们的主要贡献总结如下:
- 介绍了一种多模态、多任务的扩散网络,采用了一种新的广义多流管道,不同于现有的单流扩散模型。
- VD在一个统一的模型中解决多种模式和任务,包括图像生成(文本到图像、图像变化)和文本生成(图像到文本、文本变化)。且分数和质量上都优于基线。
- VD独特的多流多模态特性使更多新颖的衍生任务成为可能,这可能进一步促进下游用户参与该技术,包括语义风格解耦、双上下文和多上下文混合等。
2. 相关工作
多模态是不同形式的信息的结合,包括但不限于视觉、文本、音频等。早期深度学习工作学习了音频和视频的融合表示。类似的思路也被用于跨视觉和文本标签,以及跨视觉和语言。多模态方法的一部分专注于零样本学习,例如,DiViSE目标将图像映射到语义空间上,从语义空间中可以预测未见的类别标签。Socher等人训练了一个具有类似思想的识别模型,该模型将图像投影到文本语料库空间上。另一组研究侧重于通过多模态训练来提高分类精度:其中[65]和[41]对多模态嵌入进行了简单的拼接;[3]提出了一种门控单元来控制网络中的多模态信息流;[42]用多种融合方法对FastText进行了调查[36]。同时,在一次性检测和分割中也广泛采用了多模态训练[24,28,35]。另一个课题VQA进行了跨模态推理,将视觉概念转化为语言答案。将视觉概念提取为神经符号。