文本一键生成图像?OpenAI新模型打破自然语言与视觉次元壁

OpenAI推出多模态模型DALL-E,能根据文字描述生成图像,类似图像版GPT-3。该模型基于120亿参数,能绘制各种场景,包括地理知识和三维理解。尽管未透露详细信息,但OpenAI计划后续发布论文解析其工作原理。这是否预示着美术设计师的角色将发生改变?
摘要由CSDN通过智能技术生成

在这里插入图片描述

OpenAI又引燃AI社区!今天,其博客宣布,推出了两个结合计算机视觉和NLP结合的多模态模型:DALL-E和CLIP,它们可以通过文本,直接生成对应图像,堪称图像版「GPT-3」。

2021年新年伊始,OpenAI与1月5日宣布成功地训练了一个能从文字描述生成图像的神经网络。为向Wall-E致敬,OpenAI将这个神经网络命名为DALL-E,我们姑且叫他多莉。

多莉是一个基于GPT-3的神经网络。 它有120亿个参数,仅是GPT-3模型参数的十五分之一。多莉被训练成专门用于根据文字提示生成图片。

Dall-e:我会画画啦

视频:pypyai/com 出品

多莉使用一个专门的文字描述与图片对应的数据集,相对而言,GPT-3的数据集则要庞大得多。多莉还具有相当丰富的地理知识,他能回答诸如关于国旗、具有鲜明地理特征的野生动物、地方特色食品、地标性建筑等很多问题。令人惊奇的是多莉还显示出对三维空间可透视的理解力, 比如通过指定多个连续的视角甚至还可以生成动画。

下图就是它为同一只(不存在的)猫画多幅草图:

图片

目前OpenAI并未披露多莉工作方式的细节,以及多莉是如何训练的。他们会继续发表论文解释多莉的工作原理。让我们拭目以待。但,这是美术设计师即将失业的节奏吗?

原文链接:https://openai.com/blog/dall-e/

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值