本系列是根据2021年的一篇论文《Adversarial Text-to-Image Synthesis: A Review》理解所写,主要在于总结和归纳基于GAN的“文本生成图像”(text to image)方向的研究情况。很多内容为个人理解,仅供学习参考。
论文地址:https://arxiv.org/abs/2101.09983
四、度量
1、度量指标
度量指标目前常用的有8种,如下表,IS、FID、SceneFID是对图像质量的一个判断,R-prec、VS、SOA、Captioning是对图像和文本的相关性的一个判断。目前来说用户调研仍然是最可靠的指标,但是用户调研耗时耗力。
度量指标 | 图像质量 | 图像多样性 | 图像保真性 | 文本相关性 | 对象符合性 | 数量对齐性 | 稳健性 | 可解释性 | 自动化 |
---|---|---|---|---|---|---|---|---|---|
IS | √ | √ | |||||||
FID | √ | √ | √ | ||||||
SceneFID | √ | √ | |||||||
R-prec | √ | √ | |||||||
VS | √ | √ | |||||||
SOA | √ | √ | √ | ||||||
Captioning | (√) | √ | |||||||
User Studies | √ | √ | √ | √ | √ | √ | √ | √ | √ |
2、度量指标当前的问题
a:过拟合:度量得分高于真实图像
b: 生成多个对象的复杂场景有时出现得分很高,但是图像看上去很抽象
c: 各个度量的指标得分不一致,一个图像可能在一个指标上得高分,但在另一指标上得分低
d: 度量模型各有优劣,最好的仍然是做用户调研。
五、未来的研究
1、模型架构
当前的T2I方法已经成功地将最先进的无条件图像生成模型应用于T2I。因此,在无条件图像生成领域取得进展的基础上,研究更好的条件图像生成适应性可能比为T2I设计特殊架构更有效。
2、数据集
大型、高质量的数据集是深度学习方法成功的基础。
a:当前可用的描述多个对象的复杂场景数据集的一个缺点是图像分辨率低。到目前为止,我们仍然缺乏能够可以训练合成具有多个交互对象的复杂场景的真实照片图像。
b:未来的工作可能考虑允许为图像中的各个区域提供文本描述。
c:此外,目前的数据集仅限于英语。为了提高T2I模型的实用性,未来的工作可以考虑收集其他语言的描述,并分析在目标图像如何描述方面是否存在差异。
d:…
3、评价标准
评估生成图像的质量、多样性和语义对齐是一个困难的问题,也是一个悬而未决的问题。虽然有时会执行用户研究,但设置可能会有很大的变化,而且可能会很耗时和昂贵。因此,一个有希望的未来研究方向是为T2I社区标准化用户评估研究。
4、联合实际应用
图像合成的研究往往受到实际应用的推动。
a:图像处理方向:由于文本允许传递丰富的信息,未来的模型可能需要从多个可能不同的文本描述中积累和编译整体表示,类似于人类如何从高级信息和细粒度细节中绘制场景的心理图片。
b:语音和视频方向:语音图像合成(speech-to-image synthesis:S2I)S2I将在未来受到更多的关注,因为它的自然界面可以支持许多新的有趣和交互式应用程序。S2I社区可以受益于T2I社区,因为S2I可以通过用语音编码器替换文本编码器来实现,反之亦然。另外,从文本描述生成视频似乎是一个显而易见的未来研究方向。
下一篇:Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis