文本一键生成图像？OpenAI新模型打破自然语言与视觉次元壁

派派AI学院

于 2021-01-14 15:38:46 发布

阅读量451

点赞数

分类专栏： AI观察家文章标签：神经网络自然语言处理

原文链接：https://openai.com/blog/dall-e/

版权

AI观察家专栏收录该内容

14 篇文章 0 订阅

订阅专栏

OpenAI推出多模态模型DALL-E，能根据文字描述生成图像，类似图像版GPT-3。该模型基于120亿参数，能绘制各种场景，包括地理知识和三维理解。尽管未透露详细信息，但OpenAI计划后续发布论文解析其工作原理。这是否预示着美术设计师的角色将发生改变?

摘要由CSDN通过智能技术生成

在这里插入图片描述

OpenAI又引燃AI社区！今天，其博客宣布，推出了两个结合计算机视觉和NLP结合的多模态模型：DALL-E和CLIP，它们可以通过文本，直接生成对应图像，堪称图像版「GPT-3」。

2021年新年伊始，OpenAI与1月5日宣布成功地训练了一个能从文字描述生成图像的神经网络。为向Wall-E致敬，OpenAI将这个神经网络命名为DALL-E，我们姑且叫他多莉。

多莉是一个基于GPT-3的神经网络。它有120亿个参数，仅是GPT-3模型参数的十五分之一。多莉被训练成专门用于根据文字提示生成图片。

Dall-e：我会画画啦

视频：pypyai/com 出品

多莉使用一个专门的文字描述与图片对应的数据集，相对而言，GPT-3的数据集则要庞大得多。多莉还具有相当丰富的地理知识，他能回答诸如关于国旗、具有鲜明地理特征的野生动物、地方特色食品、地标性建筑等很多问题。令人惊奇的是多莉还显示出对三维空间可透视的理解力，比如通过指定多个连续的视角甚至还可以生成动画。

下图就是它为同一只(不存在的)猫画多幅草图：

目前OpenAI并未披露多莉工作方式的细节，以及多莉是如何训练的。他们会继续发表论文解释多莉的工作原理。让我们拭目以待。但，这是美术设计师即将失业的节奏吗？

原文链接：https://openai.com/blog/dall-e/

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文本一键生成图像？OpenAI新模型打破自然语言与视觉次元壁

OpenAI又引燃AI社区！今天，其博客宣布，推出了两个结合计算机视觉和NLP结合的多模态模型：DALL-E和CLIP，它们可以通过文本，直接生成对应图像，堪称图像版「GPT-3」。2021年新年伊始，OpenAI与1月5日宣布成功地训练了一个能从文字描述生成图像的神经网络。为向Wall-E致敬，OpenAI将这个神经网络命名为DALL-E，我们姑且叫他多莉。多莉是一个基于GPT-3的神经网络。它有120亿个参数，仅是GPT-3模型参数的十五分之一。多莉被训练成专门用于根据文字提示生成图片。 .
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。