艾伯特 AI 科技评论按:近日,李飞飞的学生 Justin Johnson 在 arXiv 上传了一篇论文:Image Generation from Scene Graphs(从场景图生成图像),提出利用结构化场景图而不是非结构化文本生成图像,该方法能够明确解析对象和对象之间关系,并可生成具有多个可识别对象的复杂图像。
论文摘要
为了能真正理解视觉世界,模型不仅要能够识别图像,还要能够生成它们。近期在自然语言描述生成图片方面取得了令人兴奋的进展。这些方法在有限的领域(例如鸟类或花卉的描述)上提供了令人惊叹的结果,但对于具有许多对象和关系的复杂句子却很难成功复制。为了克服这个限制,作者提出了一种从场景图生成图像的方法,能够明确地推理对象及其关系。作者开发的模型使用图形卷积来处理输入图,通过预测对象的边界框和分割掩模来计算场景布局,并且将布局转换为具有级联精化网络的图像。论文作者使用对抗训练网络对抗一组鉴别器,以确保实际输出图像足够逼真。实验通过 Visual Genome 和 COCO-Stuff 数据集验证了其方法,定性结果和用户实验复现证明了该方法能够生成具有多个对象的复杂图像。
背景介绍
我不理解的事物,我是不可能创造出来的。——Richard Feynman
创作行为的产生建立在深刻理解所创造的事物的基础之上。例如,厨师要比食客更深层理解食物,小说家要比读者更深层次理解写作,电影制作者要比影迷更深层次理解电影。如果让计算机视觉系统要真正理解视觉世界,它必须不仅能够识别图像,而且能够产生它们。
除了传递深刻的视觉理解之外,生成逼真图像的方法也可能在实践中有用。在短期内,自动图像生成可以帮助艺术家或图形设计师更好地工作。有一天,可能会根据每个用户的个人兴