我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文

最新推荐文章于 2024-05-09 19:24:51 发布

qq_28168421

最新推荐文章于 2024-05-09 19:24:51 发布

阅读量624

点赞数 1

文章标签： python java 机器学习人工智能大数据

原文链接：https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&mid=2247505942&idx=1&sn=a565b1367b76be3c70b7b831a73f3b7c&chksm=97e9f273a09e7b65134ebd617e737d9cc3cc115aeae53f961fabe3ab7242431a60a946454cd1&scene=126&&sessionid=0

版权

作者 | Ailleurs、钱磊，本文转自AI科技评论

大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗？当时，DALL·E 的画风是这样的：

只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。

就在今天！时隔一年后，OpenAI 结合 CLIP，又发布了 DALL·E 的第二个版本——DALL·E 2.0！

相比 DALL·E 1.0，DALL·E 2.0 可以生成更真实和更准确的画像：综合文本描述中给出的概念、属性与风格等三个元素，生成「现实主义」图像与艺术作品！分辨率更是提高了4倍！

比如，当提示文本中分别包含「概念」“An astronaut ”（一个宇航员）、「属性」“riding a horse”（在骑一匹马）和「风格」“in a phtprealistic style”（超现实风格）时：

文本提示：An astronaut + riding a horse + in a phtprealistic style（一个宇航员+骑马+超现实风格）

DALL·E 2可以生成如下这些同时包含三种元素的图像：

在满足三种给定元素的基础上，它可是充分发挥了自己的「想象力」，不仅马的姿态各不相同，而且给宇航员穿上了样式各异的服装，场景也是十分丰富，草地上、山顶上、星空中......

神不神奇！牛不牛！

让我们来欣赏 DALL·2.0 的大师作品！

如果你想要变换文本中概念、属性和风格三个元素中的一个或多个，比如保留「概念」“一个宇航员”和「属性」“在骑一匹马”，而将超现实主义风格替换为波普艺术家安迪·沃霍尔的风格，DALL·E 2也可以「轻松」转换它的绘画风格：

文本提示：An astronaut + riding a horse + in the style of Andy Warhol （一个宇航员+在骑一匹马+安迪·沃霍尔的风格）

DALL·E 2生成的图像：

文本提示：An astronaut + riding a horse + as a pencil drawing（一个宇航员+在骑一匹马+铅绘风格）

DALL·E 2生成的图像：

文本提示：An astronaut + lounging in a tropical resort in space + in a vaporwave style（一个宇航员+在太空热带度假胜悠哉地躺着+蒸汽波风格）

DALL·E 2生成的图像：

文本提示：Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon（泰迪熊们+正在像疯狂的科学家一样混合着冒泡的化学物质+20世纪90年代的周六早间卡通片风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in the style of ukiyo-e（泰迪熊+购买杂货+浮世绘风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in ancient Egypt（泰迪熊+购买杂货+古埃及风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+that is a portal to another dimension+as digital art（一碗汤+通往另一个维度的门户+数字艺术风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as a 1960s poster（一碗汤+宇宙中的一个星球+1960年代海报风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as digital art（一碗汤+宇宙中的一个星球+数字艺术风格）

DALL·E 2生成的图像：

DALL·E 2.0 的其他功能

1、图像编辑

DALL·E 2 可以根据自然语言描述的标题对现有图像进行逼真的编辑，比如，在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下：

文本描述的编辑需求：选择一个位置在图中添加火烈鸟。

原图 vs. DALL·E 2编辑后的图像：

文本描述的编辑需求：选择一个位置在图中添加柯基。

原图 vs. DALL·E 2编辑后的图像：

2、风格变体

DALL·E 2 可以拍摄一张图片，然后根据原图制作出同一个风格的不同画像。示例如下：

原图 1：

DALL·E 2 创造的同一风格图像：

原图 2：

DALL·E 2 创造的同一风格图像：

原图 3：

DALL·E 2 创造的同一风格图像：

原图 4：

DALL·E 2 创造的同一风格图像：

对于AI从文本生成的图像，我们非常看重的一点当然是图像的分辨率了，图像的分辨率越高，像素数量就越多，图像也就越清晰和逼真。与DALL·E 1相比，DALL·E 2的分辨率提高了4倍！

比如，对于同样的文本提示：

文本提示：a painting of a fox sitting in a field at sunrise in the style of Claude Monet（一只狐狸坐在日出时的田野里+克劳德·莫奈风格）

下面两张图分别是DALL·E 1 和DALL·E 2所生成图像的对比：

对比之下，DALL·E 1 生成的图像可以说是很模糊了，甚至根本看不出「日出」在哪里，「狐狸」只显露出它的头部，「田野」也不太有田野的样子，而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在DALL·E 2的魔法手笔下，图像质量显著提高，「日出」和「田野」都很生动，小狐狸端坐在草地上，姿态可爱。这幅画作色彩更加丰富，使用了更多的复色，对光影的描绘更加接近莫奈的风格。

总体来说，相比 DALL·E 1.0，DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述，而是对一个场景的整体表达，故事更完整，想象力也更丰富！

更详细的内容，可以查看 DALL·E 2 的相关研究论文：

论文地址：https://cdn.openai.com/papers/dall-e-2.pdf

收下我的膝盖……

参考链接：https://openai.com/dall-e-2/

觉得不错，请点个在看呀

qq_28168421

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文

作者 | Ailleurs、钱磊，本文转自AI科技评论大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗？当时，DALL·E 的画风是这样的：只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉...
复制链接

扫一扫