AI界梵高诞生!微软研发新技术,可将文本转为图像

本文由人工智能观察编译

译者:Sandy

微软一直以来都在图像与文本的转化领域,不断努力着。不久以前,他们已经开发出了一个将图像转化为文本的AI应用程序,比如,苹果iOS设备上的Seeing AI程序可以将摄像头捕捉到的图像转换为文本,朗读给视障用户。

 

之后微软的开发人员进行了反向研究,而就在昨天,他们推出了一个全新的AI系统,简称“绘图机器人”,可以将文字转化为图像。

 

在此之前,微软已经着手开始了CaptionBot的研究。这是一种机器学习技术,可以为照片添加文字说明。然后,通过重新审视对基于神经网络的系统的研究,最新的系统可以像人一样处理视觉信息,并回答有关照片内容的问题。

 

为了充实新AI应用程序的“绘图”部分,微软必须设计一种技术,从本质上“想象”或填写标题中可能丢失的细节。

 

这就是所谓的“生成敌对网络”(GAN)的技术。

微软在声明中表示:“该网络由两个机器学习模型组成,一个通过文本描述生成图像,另一个是一种鉴别器,使用文本描述来判断生成图像的真实性。前者试图鉴别器获取伪造的图像,而鉴别器永远不希望被愚弄。所以,两者的结合会创造出更高质量的图像。

 

微软使用由图像和字幕对组成的数据集对系统进行了训练。它可以像一个有艺术造诣的人一样画图:先创建一个粗略的轮廓,然后反复引用文本描述进行细节填充。

 

为了将详尽的描述变成更细致的图像,研究人员创造了一个关于注意力的GAN,即AttnGAN。它可以模仿人类的注意力,将一个冗长的句子分解成单个的单词,而这些单词可以在屏幕上被准确地表示为视觉元素。

 

微软称,最终的结果是,现在的图像质量比之前的技术提高了近三倍。正如在其声明中所展示的那样,它创造了一幅美丽的图像,一只站在树枝上的鸟。

同时,微软的绘图机器人并不局限于以真实的语言为基础的视觉效果。据该公司介绍,这种技术也可以用来产生幻想场景,比如一辆漂浮的双层巴士。它也可以填补空白。

 

回到鸟的例子,绘图机器人通常会在树枝上绘制鸟类,即使输入的文本中没有提到树枝。这是因为许多用于训练AI的照片都显示出了一只坐在树上的鸟。

 

尽管公司的文本图像技术被用于绘画杰作可能还需要一段时间,但微软已经预见到了一些实际的应用。就像Cortana和其他虚拟助理帮助忙碌的专业人员计划一天的时间表一样,绘图机器人可能有一天会成为画家或室内设计师的素描助手。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值