Imagen 3,目前Google最好的文生图扩散模型,是一种潜在扩散模型,可以从文本提示生成高质量的图像。那么文生图这个领域发展的如何呢?
文章链接:https://arxiv.org/pdf/2408.07009
【文本到图像生成(Text-to-Image Generation)】是当前人工智能领域的最热门的研究方向之一,它旨在通过文本描述自动创建图像。这个技术结合了自然语言处理和计算机视觉,使得机器能够理解文本内容并将其转化为视觉图像。Text-to-Image Generation可以极大地扩展了内容创作的边界,提高了图像生成的效率和个性化程度,同时也为艺术创作、娱乐产业和设计领域带来了新的可能性。此外,Text-to-Image Generation技术在教育、广告、虚拟现实和游戏设计等行业中具有广泛的应用前景,能够提供更加丰富和互动的用户体验。这一技术的发展推动了人工智能在理解和创造视觉艺术方面的研究,为探索机器创造力和人工智能伦理提供了新的视角。最近两年,无数的研究者们对Text-to-Image Generation这个领域的进行了大量研究,并产出了大量的学术成果。
为了帮助大家全面掌握【Text-to-Image Generation】的方法并寻找创新点,本文总结了最近两年【Text-to-Image Generation】相关的25篇顶会论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。
需要的同学扫码添加我
回复“文生图25”即可全部领取

三篇论文详解
1、Rich Human Feedback for Text-to-Image Generation
方法
-
该论文提出了一种新的方法来提高文本到图像(Text-to-Image, T2I)生成模型的输出质量。具体方法包括:
-
收集了18K张生成图像的丰富人类反馈(RichHF-18K),这些反馈包括图像中不合理或与文本描述不一致的区域的标记,以及文本提示中在图像中未被正确表示或缺失的单词的标注。
-
训练了一个多模态变换器(multimodal transformer),用于自动预测丰富的人类反馈。这个模型被称为Rich Automatic Human Feedback (RAHF),能够预测图像的不合理和不一致区域、关键词的不一致性,以及图像的合理性、文本-图像对齐、美学和整体评分。
-
使用预测的丰富人类反馈来改进图像生成,例如通过选择高质量的训练数据进行微调来改进生成模型,或者通过创建预测的热图掩模来修复问题区域。
创新点
-
丰富的人类反馈数据集(RichHF-18K):首次收集了包含多种细粒度评分和标注的大规模人类反馈数据集,为图像生成模型提供了更全面的评估。
-
多模态变换器模型(RAHF):设计了一个能够同时处理图像和文本信息,并预测出多种反馈类型的模型,这在以往的研究中是少见的。
-
细粒度的反馈预测:模型能够预测出图像中具体的不合理区域和文本提示中的关键词不一致性,这为图像生成提供了更具体的改进方向。
-
改进图像生成的应用:展示了如何使用预测的反馈来选择更好的训练数据或指导区域修复,从而提高生成图像的质量,这一点在以往的研究中并不常见。
-
跨模型的泛化能力:所提出的方法不仅适用于生成训练数据的模型,还能泛化到其他不同的图像生成模型上,显示了良好的泛化能力。

2、InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning
方法
-
InstantBooth是一种个性化图像生成模型,它利用现有的预训练文本到图像模型,通过以下方法实现即时文本引导的图像个性化,无需测试时的微调:
-
使用图像编码器将输入图像转换为全局嵌入(global embedding),以捕获通用概念。
-
在预训练模型中整合新的适配器层(adapter layers),以增强捕捉细节身份特征的能力,同时保持语言一致性。
-
引入概念令牌归一化技术(concept token normalization),在采样过程中重新加权全局概念嵌入和其他词嵌入的重要性,以增强语言对齐。
-
训练数据创建时,使用单图像及其描述,通过预处理和增强创建条件图像,并使用原始图像作为真实对照。
-
训练目标使用原始的扩散去噪损失函数。
创新点
-
无需测试时微调:与现有需要针对每个新概念进行测试时微调的方法相比,InstantBooth在推理时不需要额外的优化过程,提供了100倍的生成速度提升。
-
概念和补丁编码器:引入了概念编码器和补丁编码器来分别学习图像集的全局概念嵌入和丰富的补丁嵌入,这有助于在生成图像时保留身份细节。
-
适配器层:通过在U-Net的交叉注意力层和自注意力层之间引入适配器层,模型能够更好地融合视觉信号,生成与文本描述一致的图像。
-
概念令牌归一化:提出一种在采样过程中的概念令牌归一化技术,以平衡全局概念嵌入与其他词嵌入之间的注意力权重,避免概念令牌在跨注意力中占主导地位,导致语言遗忘。
-
训练策略:模型仅在文本-图像对上进行训练,不依赖于特定概念的配对图像,这表明模型能够从大量不同身份的数据中学习并保持身份信息。
-
平衡采样:在推理期间,通过调整适配器层中的β值,平衡身份保持和语言对齐之间的关系,以生成既符合文本描述又保留输入概念身份的图像。

需要的同学扫码添加我
回复“文生图25”即可全部领取

3、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
方法
-
ViewDiff方法利用预训练的文本到图像扩散模型作为先验,通过以下步骤生成具有3D一致性的高质量图像:
-
将3D体积渲染和跨帧注意力层集成到现有的文本到图像模型的U-Net网络的每个块中。
-
设计了一个自回归生成方案,可以在任何视点渲染更具3D一致性的图像。
-
在真实世界对象的数据集上训练模型,展示其生成具有各种高质量形状和纹理的实例的能力,且背景环境真实。
-
通过单次去噪过程从真实世界数据生成多视图图像,与现有方法相比,生成的结果在视觉上更为一致和高质量。
创新点
-
3D体积渲染和跨帧注意力层:引入了新的网络层,明确编码关于生成对象的3D知识,增强了模型在生成图像时的3D一致性。
-
自回归生成方案:允许直接使用模型以3D一致的方式从任何期望的视点渲染3D对象的图像,提高了生成图像的多样性和真实感。
-
利用预训练的2D先验:通过在真实世界的3D数据集上微调预训练的文本到图像模型,结合了大规模2D图像数据集的表达能力,同时保持了3D生成的一致性。
-
改进的U-Net架构:结合了2D层和3D感知层,通过在每个U-Net块中添加新的层,提高了模型对3D结构的理解能力。
-
多视图一致性:与现有方法相比,ViewDiff生成的图像在多视图下展现出更好的一致性,同时具有改进的视觉质量(降低了FID和KID指标)。
-
真实感和细节:生成的图像不仅在视觉上与真实图像更接近,而且能够渲染出具有高质量形状、纹理和背景的对象。

需要的同学扫码添加我
回复“文生图25”即可全部领取

1509

被折叠的 条评论
为什么被折叠?



