![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
生成-图像生成
文章平均质量分 92
nopSled
一周一更
展开
-
AMUSED: AN OPEN MUSE REPRODUCTION翻译
我们提出了 aMUSEd,一个开源的、轻量级的屏蔽图像模型 (MIM),用于基于 MUSE 的文本到图像生成。aMUSEd 拥有 MUSE 10% 的参数,专注于快速图像生成。我们认为,与文本到图像生成中流行的潜在扩散方法相比,MIM 尚未得到充分开发。与潜在扩散相比,MIM 需要更少的推理步骤并且更具可解释性。此外,MIM 可以进行微调以仅使用单个图像来学习其他样式。我们希望通过展示 MIM 在大规模文本到图像生成方面的有效性并发布可复现的训练代码来鼓励对 MIM 的进一步探索。翻译 2024-05-25 17:51:48 · 53 阅读 · 0 评论 -
CogView: Mastering Text-to-Image Generation via Transformers翻译
摘要通用领域中的 Text-to-Image 生成长期以来一直是一个开放的问题,它需要强大的生成模型和跨模态理解。 我们提出了 CogView,一个 40 亿参数的 Transformer,带有 VQ-VAE tokenizer来解决这个问题。 我们展示了其在各种下游任务的微调策略,例如 风格学习、超分辨率、文本图像排名和时装设计,并且还提出了稳定预训练的方法,例如。 消除 NaN 损失。CogView(zero-shot)在模糊 MS COCO 上实现了新的最先进的 FID,优于以前的基于 GAN 的模翻译 2021-10-11 16:11:53 · 5082 阅读 · 0 评论 -
Hierarchical Text-Conditional Image Generation with CLIP Latents翻译
计算机视觉的最新进展是通过基于从网络上收集的包含文本图像对的大型数据集,对大模型进行训练来驱动的。在此框架内,CLIP已成为成功的图像表示学习器。CLIP嵌入具有许多理想的属性:它们对于图像分布的变化是鲁棒的,并具有令人印象深刻的zero-shot能力,经过微调后,再各种视觉语言任务上都达到了SOTA效果。同时,扩散模型已成为一个较好的生成建模框架,从而推动了SOTA的图像和视频生成任务。为了取得最优结果,扩散模型利用了一种指导技术,该技术以样本多样性为代价改善了样本保真度。翻译 2023-04-07 17:10:43 · 322 阅读 · 0 评论 -
Semi-Parametric Neural Image Synthesis翻译
深度生成式建模取得了巨大的飞跃,特别是在语言建模以及高保真图像和其他类型数据的合成中。特别是对于图像合成而言,最近实现了惊人的结果,可以确定的是有三个主要因素成为这一进步背后的驱动力:首先,transformer的成功在许多视觉任务中引起了结构革命,尤其在图像合成领域组合了自回归建模。其次,由于其重新发现,扩散模型已应用于高分辨率图像生成,并在很短的时间,在生成图像建模达到了新的标准。第三,这些方法扩展性更好。翻译 2023-03-11 12:13:27 · 187 阅读 · 0 评论