OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面直接细节爆炸

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态和Transformer】交流群

梦晨 萧箫 发自 凹非寺
转载自:量子位(QbitAI)

在CVer公众号后台回复:DALLE,即可获得学习资料!学起来 e2f0ceaefd6029eef5568702e582ee98.png

起猛了,OpenAI竟然把AI绘画ChatGPT合 并 了!

这不,最新发布的DALL·E 3,直接给AIGC带来了两大震撼——

  • 提示词门槛极大降低

  • 理解语意的细微差异的细节描述,准确到令人发指

5e5ed5bc7fecf7115a3fd55dd1a093f3.png

没错,新版DALL·E 3,不仅省去了提示词工程,还顺带把语言理解能力提升了一个档次!

你只管随意想象。,ChatGPT帮你拓展;,DALL·E 3给你精确到细节。

AI就能像拍电影一般,保证从背景到人物,细节一字不差地复刻出来:

满月下的街道,熙熙攘攘的行人正在享受繁华夜生活。

街角摊位上,一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子,正在和脾气暴躁的老小贩讨价还价。

这个脾气暴躁的小贩身材高大,老道,身着一套整洁西装,留着引人注目的小胡子,正在用他那部蒸汽朋克式的电话兴致勃勃地交谈。

68b70fcb2970d67f37dbbb95f5bfa2c2.png

除了基础细节,DALL·E 3甚至能将模糊的形容词如繁华、讨价还价、脾气暴躁演绎得活灵活现,和CLIP已经不在一个档次了。

9cd12a1c39f07de7c3f04a3a95187bb8.png

同时,相比上一代老模型,DALL·E 3自身的画技也前进了一大步:

951a1832df979f554cd23e5f37f86a3c.png

这般操作,直接把网友看愣了。

有网友已经决定取消Midjourney订阅了。“如果Midjourney无法准确理解文本,这甚至称不上是同台竞技。”

511d9d25504246bc9bbfcf54efd3285d.png
9ebc041deb366f5cc0cdbe29f2376f85.png

还有网友调侃,这简直就是给即将到来的谷歌Gemini上压力。

2273e496f5e2ea861fe3822bc3fa0699.png

更多细节,我们从DALL·E 3展示的效果一一来看。

在ChatGPT里直接用

相比前两代,DALL·E 3最大的优势在于原生构建在ChatGPT之上

不仅意味着语言理解能力大幅飞跃,甚至提示词都可以让ChatGPT自己来写

更多细节藏在奥特曼都忍不住自夸可爱的宣传视频里。

f93f41e8904403584e55b8488ed2a992.png

这是一个家长把5岁小朋友脑海里的幻想变成现实的故事

首先家长询问ChatGPT,“我家5岁宝宝一直在说一个’超级向日葵刺猬’,它该长什么样?”

可以看到ChatGPT同时写了四段不同风格的提示词,并给出对应图像。

558499e44a0bef4590de698ef54a873f.gif

家长选择其中偏童话插图风格的一张后,故事的主角小刺猬形象似乎就能固定下来了,可以继续请ChatGPT画出更多。

顺便给小刺猬一个名字Larry,后面的对话中就不用每次都说“超级向日葵刺猬”了。

24e1f66ea137d364242b4d85b9769f8f.gif

主角定好了,接下来再添加更多元素,让整个童话故事更丰富,比如给Larry画个房子。

这里既展示出了DALL·E 3创作一致形象的能力,也展示出邮箱上正确写上了LARRY的名字,解决了之前版本DALL·E不会写字的问题

90e93b8bd0c87638e22820bab90afaf3.gif

反正都用上ChatGPT了,不如把故事情节也完善一下?

d9fe2f40ab02e4cc25573cd7b0cc7078.gif

刚编好的情节立马就可以有配套的插画了。

584d9aacd496ef83b8bf32e6fa91211b.gif

保持角色形象,迁移到完全不同的贴纸画风也没问题,可以直接打印出来。

411dc94afcbc3d8075f267ad88bf4bf3.gif

注意了,最绝的地方来了,直接让ChatGPT总结前面对话中所有内容,写成一个完整的睡前故事。

8396dd8c9bc94e4931b46910b522e2ba.gif

虽然演示到此结束,但完全可以想象配合ChatGPT插件功能,还可以直接生成一本电子书出来。

c3a52ad60b0e215bf1d71663c0daa081.gif

就让人想起之前网友提议,确保AI安全的最佳方法是让OpenAI、Anthropic等公司的员工都有孩子。

这样他们就有动力确保AGI到来时世界是安全的。(手动狗头)

e290af640d519a14c3d3fecc44716f35.png

虽然DALL·E 3现在还不能马上玩到,一次放出的大量样张也可以先看个饱了。

在CVer公众号后台回复:DALLE,即可获得学习资料!学起来 f6de1e36184ede7f7cd9846e9edd8506.png

a6b7ba7c4a7af217edc4cbffded97366.png

每一张点开还可以看到提示词,都是直接用人话描述,没怎么加复杂咒语的那种。

f7e7fea34ebd1d0ff0f14761aa01830f.png

复杂场景与不存在的概念组合,效果很惊艳。

e93c34acea0ba699d78cbe43fa4b6b4c.png

搞室内设计概念图,光影明暗关系乍看也挑不出毛病。

66f322a9579126c4dc5ec52993cf813e.png

配合正确写字能力,直出海报也是生产力拉满(没指定文字的小字部分还有些问题)。

2a65817ecf115286274e0a2f131e4e18.png

刚加入OpenAI不久的德扑AI之父Noam Brown也晒出了他试玩的机器人打牌图。

171dee89b6227c52758337c37e4e5ba7.png

CEO奥特曼最喜欢的则是这张“牛油果看医生”。

64bf0599f069f7ab004b4b5f436bcb9e.png

e7e8df58c74db658099405c45bc6c30b.png

有网友去试了同样的提示词用在DALL·E 2的效果,只能说字也不对、牛油果中间的洞没话出来,治疗是更是没有……

b5c0af9285d9b9ccad0348c6e0543444.png

还记得2021年1月DALL·E 1刚出的时候吗?梦开始的地方就是一组“牛油果做的沙发”。

也难怪网友感叹:看看它走了多远!

f253d56932af9581db7b346d0fdaedfa.png

“如有侵权,请来删图”

当然,除了上述特性以外,OpenAI也预告了一些神奇的新功能。

例如,DALL·E 3即将配套推出一个图像鉴别器

这个分类器可以帮助识别图像是否由DALL·E 3生成,不仅能避免误伤(手动狗头),也能在DALL·E创作出好作品时快速将它认领成自己的。

9ef0d1b3a1a1a132599b169b598b916f.png

至于在生成图像上,OpenAI自述也做了大量工作,防止其生成暴力、色情或其他有害图片,或是带有公众人物(明星、名人等)姓名的图像生成。

关于隐私方面,之前纽约时报就曾爆料称,OpenAI正在通过某些技术,模糊掉上传到ChatGPT的图像中的人脸。

这也是为了避免ChatGPT变成一个彻底的“人脸识别工具”,尤其是已经有不少照片流传到互联网上的名人明星们。

如今这个技术可能也被用到了DALL·E 3中,防止生成侵权图像

同时,OpenAI也与安全红队合作,提高了图像风险评估的能力。

除此之外,在训练数据上,有了Midjourney的“前车之鉴”,OpenAI这次也学会了保护自己。

相比于直接和画手打官司、或者等着被起诉,OpenAI在官网放出了一则训练数据“免责声明”

您可以填写表格,禁止我们的网络爬虫GPTBot访问您的网站。或者,您也可以发送您想要保护隐私的图像,我们会把它从训练数据中删掉。

3e57627c9f9892d130332a5a5510d67c.png

不过也有网友对DALL·E 3演示效果不满意,认为比不上MidJourney资深玩家出的图,OpenAI的资金可是充裕n多倍啊。

3ca0069ceaab934e6b2f3c37c0166dbe.png

还有网友开启列文虎克模式,开始挨个挑演示图中漏掉的提示词细节。

比如这张杯子里缺少微型闪电。

abec3d19130f61a6978bfd31311b6a08.png

这张散落在海底的只有大炮残骸,没有宝藏。

b7451d375e6b28cb679e5ce45ed37a06.png

具体这些问题能不能通过调整提示词改善,就要等实际上手玩过才知道了。

在CVer公众号后台回复:DALLE,即可获得学习资料!学起来 a497e0451e44b81b42b40e92385c7dbe.png

那么DALL·E 3具体什么时候上线呢?划重点了:

  • ChatGPT Pro会员(20美元/月)和企业版在10月可用。

  • 独立版在今年秋天晚些时候提供(目前价格15美元可以玩115次)。

参考链接:
[1]https://openai.com/dall-e-3
[2]https://www.nytimes.com/2023/07/18/technology/openai-chatgpt-facial-recognition.html
[3]https://twitter.com/sama/status/1704547625482203560

点击进入—>【多模态和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值