GAN属于计算机视觉领域嘛_生成式对抗网络(GAN)在计算机视觉上的应用

目前GAN的最基本的应用就是生成以假乱真的图像。图像生成的任务主要分两种,第一种是生成某种类别的图像,第二种是根据用户的描述生成符合描述的图像。目前,第一种图像生成的任务已经取得了很好的效果,例如2016年发表的PPGN模型,在视觉效果上已经取得了行业顶尖的效果,其生成的火山图像整体上已经可以达到以假乱真的效果。而根据描述生成图像的任务,目前达到的效果还差强人意。这个任务的难点在于,生成器并不是学到了如何生成每个物体之后把它们组合起来,而是尝试一次到位生成整张图像,这与人类绘画的过程不一样。GAN根据文字生成单个物体的图像效果很不错,但在多物体的复杂图像上效果就差得多,有时候甚至难以分辨生成的图像内容。可见,在文字转换为图像这个领域,还有非常大的研究空间。

f748e9ce0d260c41b937407ceb81796a.png

另一种很热门的应用是图像转换(image-to-im-age translation),图像风格迁移只是其中一小类而已。具体而言,图像转换可以包含很多种,例如把一张夏天的图像转换成冬天的样子,给用笔画的物体轮廓填上彩色的细节纹理,给手机拍摄的照片自动虚化使之看起来像单反相机拍摄的一样,等等。今年初发表的CycleGAN模型就是利用了对抗机制与范数损失函数结合的办法,加上类似对偶学习(dual learning)的对偶模型设计,使得模型能够在无标注的数据集上取得良好的表现。

最近的有学者提出RTT-GAN模型则实现了上述“看图写作”的能力给出一张图以及对图中一些物体的简短描述,模型会生成一段连贯的篇章,而用户可以通过控制先描述的物体来改变图像中物体的描述顺序,从不同的描述中体会到不同的观测视角。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值