自带魔法棒的 DALL·E | 一文图解热词

最新推荐文章于 2025-04-13 00:36:27 发布

shadowcz007

最新推荐文章于 2025-04-13 00:36:27 发布

阅读量6.5k

点赞数 3

文章标签：人工智能机器学习深度学习计算机视觉大数据

本文探讨了DALL·E的创新功能，如根据文字描述生成逼真图像，展现出其在拟物和创意设计领域的突破。OpenAI通过Transformer模型的120亿参数展示了强大的图像生成能力，尽管与GPT-3相比参数较少，但其理解和组织现实世界的能力令人惊叹。文章还提及了DALL·E的成功案例和一些有趣讨论，预示其可能的应用前景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CHUNFANG：大家最近在聊的热门词儿 DALL·E 是什么？具备什么功能？

大铮：DALL·E 能按照文字的描述，画出十分自然的图像。

目前的模型对于选词比较敏感，官方释出的例子是类似完形填空的形式，给句子中的名词位置挖了空，并提供了候选的词汇。

我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子：

第一个句子是：“一个长得像猪的闹钟”。

于是，DALL·E 生成了这样的图片：

第二个句子是：“一个长得像猪的手提包”：

接下来我们把 “猪” 换成 “桃子” ：

最后我们看看 “桃子风格的，皮质扶手椅”：

在这里我们看到了一件有意思的事情：对于闹钟，手提包这些生活中本身就有各种形式的物体，DALL·E会生成形状各异的物体，且都很好得捕捉到了物体本身的特性。

比如闹钟的表盘和手提包的背带。而我们却没有看到长得像桃子的皮质扶手椅，DALL·E在这里采用的外观特性是桃子特有的粉色。

除了拟物，DALL·E 可以做的还有更多，画油画，设计服装，布置房间，画emoji，等等。mixlab对此有更多介绍，或者你可以直接在openAI的官网试一试。

https://openai.com/blog/dall-e/

CHUNFANG：DALL·E 算是横空出世吗？

大铮：DALL·E不是一个架空的作品，Openai在去年发布了GPT-3（见跨模态专栏第一期）和Image GPT两个模型，各自分别能完成多种类的文本任务以及补全图像中的空缺部分。

DALL·E的模型在技术上来讲和GPT-3应该是大同小异的，同样采用了Transformer模型。因此这个作品更像是在秀肌肉（当然我得承认肌肉线条非常优美）。

DALL·E有120亿的参数，但和GPT-3的1750亿相比相形见绌，但这不是因为Openai没有这个财力去训练一个更大的模型，而可能是收集能够用来的训练的“图片-文本”对的成本很高（Openai为此收集了4亿个“图片-文本”对，文章的作者在Reddit的问答汇总也提到“这大概是最困难的部分”），远没有收集大量文本来的容易，而愈大的模型意味着愈大的训练样本数量。

CHUNFANG：DALL·E有什么惊人之处？

大铮：在介绍DALL·E时我就惊讶于ta能够很聪明地捕捉到每个事物的特性，并且合理地组织在了一起。

这个能力在之前一直被认为需要更多的人类常识的参与，光给模型看一大堆样本是做不到的。但事实上DALL·E做的很好，仿佛是真的理解了我们的真实世界。

CHUNFANG：但是有失败的案例吗？

大铮：当然哈哈哈。因为之前就说这是一项秀肌肉的工作，即使这些例子都是精挑细选出来的，但只要花点时间还是能够找出一些没做对的合成图像。

比如“印着蓝色草莓图样的拿铁咖啡”：

CHUNFANG：还有哪些关于DALL·E有趣的讨论？

大铮：外国网友真的是很好玩，我来贴两个：

→ 它生成来美丽的紫色路标。我建议我们将所有路标更改为紫色！

→ 我们用深度学习发现了魔术。即使知道它是如何工作的，它仍然像是魔术。“给我一把像牛油果一样的椅子。不，比这还要毛绒绒的……”

最后说说我个人的看法：

DALL·E给我们展现的效果无疑是非常震撼的，有了合理的创造能力的加持，未来能被设计师用作创作的素材库也是很有可能的。相比较于现有的搜索引擎，DALL·E更像是一个创造引擎，这在以前是没有过的。

设计：朱柏丞

编辑：chunfang

- END -

下一期预告：重塑世界的经验 | 人的抽象经验如何影响具象的视觉认知？

“我想去未来看看”

专栏作者：大铮

复旦大学 | 计算机应用技术在读博士

研究：机器学习、深度学习、媒体大数据分析

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。