打破次元壁，融合自然语言与视觉 | MixLab 人工智能

最新推荐文章于 2023-05-08 18:00:54 发布

shadowcz007

最新推荐文章于 2023-05-08 18:00:54 发布

阅读量418

点赞数

文章标签：人工智能机器学习深度学习编程语言计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shadowcz007/article/details/114714752

版权

#DALL·E 和 CLIP#、#OpenAI#

DALL·E 和 CLIP

DALL·E 可以基于文本直接生成图像；

CLIP 则能够完成图像与文本类别的匹配。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 表示：人工智能的长期目标是构建「多模态」神经网络，即 AI 系统能够学习多个不同模态的概念（主要是文本和视觉领域），从而更好地理解世界。

而 DALL·E 和 CLIP 使我们更接近「多模态 AI 系统」这一目标。

自带魔法棒的 DALL·E

→ 以下是Mixlab 多模态专栏作者：大铮博士的部分专栏内容。今天，我们主要聊聊 DALL·E，如果大家感兴趣，欢迎文末留言，我们再更新关于 CLIP 的介绍。

全文阅读：《自带魔法棒的 DALL·E》

CHUNFANG：大家最近在聊的热门词儿 DALL·E 是什么？具备什么功能？

大铮：DALL·E 能按照文字的描述，画出十分自然的图像。

目前的模型对于选词比较敏感，官方释出的例子是类似完形填空的形式，给句子中的名词位置挖了空，并提供了候选的词汇。

我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子：

第一个句子是：“一个长得像猪的闹钟”。

于是，DALL·E 生成了这样的图片：

第二个句子是：“一个长得像猪的手提包”：

接下来我们把 “猪” 换成 “桃子” ：

最后我们看看 “桃子风格的，皮质扶手椅”：

在这里我们看到了一件有意思的事情：对于闹钟，手提包这些生活中本身就有各种形式的物体，DALL·E会生成形状各异的物体，且都很好得捕捉到了物体本身的特性。

比如闹钟的表盘和手提包的背带。而我们却没有看到长得像桃子的皮质扶手椅，DALL·E在这里采用的外观特性是桃子特有的粉色。

除了拟物，DALL·E 可以做的还有更多，画油画，设计服装，布置房间，画emoji，等等。mixlab对此有更多介绍，或者你可以直接在openAI的官网试一试。

https://openai.com/blog/dall-e/

“我想去未来看看”

专栏作者：大铮

复旦大学 | 计算机应用技术在读博士

研究：机器学习、深度学习、媒体大数据分析

欢迎大家加群告诉我们，你喜欢和关注的主题：只要关注人数足够多，Mixlab 随时为大家特邀发起『各类专题内容或者线上、线下专场讨论』！（编辑：春FANG）

一个人的探索有些孤单，

一群人的探索会更有意思。

更多有趣的智能工具分享

在这里（扫码）！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
打破次元壁，融合自然语言与视觉 | MixLab 人工智能

#DALL·E 和 CLIP#、#OpenAI#DALL·E 和 CLIPDALL·E 可以基于文本直接生成图像；CLIP 则能够完成图像与文本类别的匹配。OpenAI 联合创始人、首席科...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。