CVPR 2020 Oral | 妙笔生花新境界,语义级别多模态图像生成

本文介绍了CVPR 2020一篇关于语义级别多模态图像生成的研究,通过GroupDNet架构实现对图像的精细控制,允许在特定语义区域产生变化,而保持其他区域不变。该方法有望为设计师和艺术家提供更强大的工具,同时在DeepFashion、Cityscapes和ADE20K数据集上表现出优秀的图像生成质量。
摘要由CSDN通过智能技术生成

GAN已经成为图像生成的有力工具,现今GAN已经不再局限于生成以假乱真的图,而是向着更加灵活可操控的方向发展。

今天向大家介绍的CVPR 2020 的文章出自华中科技大学白翔老师组,特别要提醒,文中有视频,相信看过之后你一定会被它的魅力所吸引!

简介

本文所关注的基本任务是使用分割图生成自然图像。同一个分割图可能对应于多张不同的自然图像。

输入一张分割图从而能够产生各种不同的结果是一个非常有挑战性的研究方向,之前的方法主要结合vae(variational auto-encoder)去操控浅层变量,或者在训练的时候加入噪声,测试的时候通过改变噪声去产生不同的结果,但是这些方法都只能对图像进行全局的控制,即噪声一旦发生变化,整张图也会跟着变化。

假设通过一个模型生成的图像效果不错,但是你对其中的某一类不满意,想进行改变,那么之前的方法将无能为力。

因此,本文集中精力在语义级别上对图像进行控制,从而生成只在相同的语义区域上有所变化的不同自然图像,而不改变其它类别的区域。该文把该任务称之为语义级别多模态图像生成(Semantically Multi-modal Image Synthesis,简称SMIS)。

这个任务要求模型能够支持更彻底的用户控制,如果能集合在一些工具和软件之中,甚至可以为设计师和艺术家提供更多的便利。

针对SMIS,可能的方法是对不同的类使用单独的Generator,最后再用一个融合模型将不同类的生成结果合并为一张图像。

这种方法不仅生成效果较差,而且当类别数很大的时候(比如ADE20K有150类),为了保证每一类都能充足训练,会造成极高的算力和显存消耗。

因此本文提出了一种GroupDNet的网络架构,其核心思想是在Decoder中采用组数逐渐递减的分组卷积。

因为组数递减,从而能够大量降低算力和显存消耗,而且,由于很多类别具有互补性,将各个类逐渐地进行融合,从而可以最大限度地利用这种互补去提高图像的生成质量。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值