Muse论文精读

最新推荐文章于 2024-05-27 17:00:50 发布

Major Tom _

最新推荐文章于 2024-05-27 17:00:50 发布

阅读量804

点赞数 22

文章标签： python 人工智能 AI作画

本文链接：https://blog.csdn.net/m0_52474839/article/details/138888692

版权

Muse

Abstract

我们介绍了Muse，一个文本到图像的Transformer模型，它实现了最先进的图像生成性能，同时比扩散或自回归模型更有效。Muse是在离散标记空间中的掩码建模任务上进行训练的:给定从预训练的大型语言模型(LLM)中提取的文本嵌入，Muse被训练来预测随机掩码图像标记。与Imagen和dall - e2等像素空间扩散模型相比，Muse由于使用离散令牌和需要更少的采样迭代而显着提高了效率;与自回归模型(如Parti)相比，Muse由于使用并行解码而效率更高。使用预训练的LLM可以实现细粒度的语言理解，转化为高保真的图像生成和对视觉概念的理解，如物体，它们的空间关系，姿势，基数等。我们的900M参数模型在CC3M上实现了新的SOTA, FID评分为6.06。Muse 3B参数模型在零射击COCO评估中实现了7.88的FID，以及0.32的CLIP评分。Muse还直接启用了许多图像编辑应用程序，而无需对模型进行微调或反转:内涂，外涂和无蒙版编辑。更多的结果可以在http://muse-model.github.io上找到。

在这里插入图片描述

我们的基本模型是一个masked transformer，其中输入是投影的T5嵌入和图像标记。我们保留所有的文本嵌入，并随机屏蔽不同比例的图像标记，并用一个特殊的[mask]标记替换它们。然后，我们将图像标记线性映射到所需Transformer输入/隐藏大小的图像输入嵌入以及学习的2D位置嵌入。根据之前的变压器架构，我们使用多个变压器层，包括自注意块、交叉注意块和MLP块来提取特征。在输出层，使用MLP将每个掩膜图像嵌入转换为一组logits，并以ground truth令牌标签为目标应用交叉熵损失。在训练时，训练基本模型在每一步预测所有掩码令牌。然而，对于推理，掩码预测以迭代的方式执行，这大大提高了质量。

Contribution

1.性能表现

图7显示了Muse、Dall-E2和Imagen在一些选择提示上的比较，表明Muse与Imagen相当，并且在许多提示上的质量优于Dall-E2。

在这里插入图片描述
“灰色”和“吃花生”)，可能的单词和短语的虚拟连续体要求模型以不同的方式学习。相反，它必须学习对短语、单词和字母的分层理解。图6的左下角展示了Muse在呈现时使用整个文本提示符，而不是聚焦

图7显示了Muse、Dall-E2 (Ramesh等人，2022)和Imagen(撒哈拉等人，2022)在一些选择提示上的比较，表明Muse与Imagen相当，并且在许多提示上的质量优于Dall-E2。

2.量化性能(Quantitative Performance)

在表1和表2中

结果表明，两个Muse模型都在CC3M数据集上进行了训练。COCO结果是zero-shot，使用与Imagen相同的数据集训练的模型。

我们的632M模型在CC3M上达到了SOTA结果，显著提高了FID评分的水平，也达到了CLIP评分的水平。

我们的3B模型的FID得分为7.88，略好于参数数量相似的part -3B模型的8:1得分。我们的CLIP得分为0.32，高于Imagen的CLIP得分0.29。对于FID为7.27,Imagen的CLIP得分约为0.27。

我们的采样算法有许多超参数，如制导尺度、采样温度、是否在采样过程中线性增加制导等。我们对这些参数执行求值扫描。我们发现采样参数的子集是帕累托有效的，在某种意义上，我们不能在不损害CLIP的情况下改进FID。

这允许我们研究多样性和图像/文本对齐之间的权衡，如图8所示。

在这里插入图片描述

FID分数是生成图片和原始图片距离分数，越小越好。CLIP分数是衡量图片和图片描述的匹配分数，越高

在这里插入图片描述

side-by-side evaluations对比试验

在这里插入图片描述

向人类评分者提供一个文本提示和两个图像，每个图像由使用该提示的不同文本到图像模型生成。评分者被要求通过“哪张图片与标题更匹配?”这个问题来评估即时图像的一致性。

inference speed

在表3中，我们将Muse的推理时间与其他几个流行模型进行了比较。我们在TPUv4加速器上对part - 3b、Imagen和Muse-3B进行了内部基准测试。

对于Stable Diffusion/LDM，我们使用了最快的基准测试(Lambda Labs, 2022)，该测试是在A100 gpu上完成的。对于Stable Diffusion，我们测试的TPU实现并不比A100实现快。我们还报告了具有250次迭代的LDM的推断时间，这是用于实现表2中FID的配置。Muse的速度明显快于与之竞争的扩散模型或自回归模型，尽管参数数量相当(比Stable diffusion /LDM多3倍左右)。Muse相对于Imagen的速度优势是由于使用离散令牌和需要更少的采样迭代。Muse相对于Parti的速度优势是由于使用了并行解码。Muse相对于Stable Diffusion的速度优势主要是由于需要更少的采样迭代。

在这里插入图片描述

Major Tom _

关注

22
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Muse论文精读

我们介绍了Muse，一个文本到图像的Transformer模型，它实现了最先进的图像生成性能，同时比扩散或自回归模型更有效。Muse是在离散标记空间中的掩码建模任务上进行训练的:给定从预训练的大型语言模型(LLM)中提取的文本嵌入，Muse被训练来预测随机掩码图像标记。与Imagen和dall - e2等像素空间扩散模型相比，Muse由于使用离散令牌和需要更少的采样迭代而显着提高了效率;与自回归模型(如Parti)相比，Muse由于使用并行解码而效率更高。
复制链接

扫一扫