DALL·E 3 微软Bing抢先测!马骑宇航员难题攻破!一张画指定50个物体

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

梦晨 发自 凹非寺
转载自:量子位(QbitAI)

DALL·E 3限量测试,已由微软Bing抢先开启,看看你是欧皇之一吗?

a215851f1b9badc2ca9a3bad87d2170e.png来自WindowsLatest

没收到资格也没关系,再加上第三方研究预览、OpenAI员工的内部试玩,各种测试案例纷纷涌现,包看过瘾。

最夸张的一个,要数“指定画面中出现50个不同物体”,结果足足画出了几百个。

b40591badc72ce3f96a20a1cb0f7817f.png

除了简单平铺排列,更可以把这些物体组合得更有创意一些。

6a7b2996c35bd756d6eb4e2312d0fc4a.png

马骑宇航员这种反事实概念,过去OpenAI和谷歌的各种模型都只能画出宇航员骑马

在论文一般当成失败案例,当时还被AI悲观主义者马库斯好一顿嘲讽。

d1419f78be28ee5c14f6c8ed9dc03b9c.png

现在,DALL·E 3在ChatGPT加持下轻松搞定。

8824a1ccaa0402d38033316c7ba7413b.png

DALL·E 3这次这么大进步,不仅仅是OpenAI自己的努力,而是与微软通力合作的结果。

虽然没有明确说明,但贡献名单中研究部分就有至少3位微软工程师与研究员参与,推理优化部分更是大部分成员来自微软DeepSpeed团队。

5cbb68eef6f5b9035be15b2bad0343b9.png

回看GPT-4时还是主要由OpenAI内部研发,再给微软和其他研究机构开放权限一同测试。

这次合作模式的变化,也代表两家公司关系进一步加深

一张画指定50个物体

由微软Bing首席执行官Mikhail Parakhin确认,最幸运的百分之几用户已经获得测试资格了。

eb88c63a860ac091eb2506a4b6b11d57.png

由于名额着实有限,等不及的网友纷纷在线提出脑洞,请有号的人帮忙测试。

提出画50个不同物体的网友,就是想测试DALL·E 3一张画中能容纳多少物体,类似大语言模型的“上下文窗口”

b9218d448eff171a02aa85cc9705789e.png

收到研究预览版的第三方设计师Nathan Shipley接下了这个挑战。

首先他先让ChatGPT随机列出50个日常物体,然后直接要求把这些物体都画在一幅画里就可以了。完整的提示词是ChatGPT自己补全,再由DALL·E 3画出来。

66f54fc54a21e67dc8d8823cdb147e32.png

接下来Nathan问:“你能创建一个冲浪者在努力冲浪时将这些物体堆成一堆的图像吗?”

ChatGPT在提示词中补充了一些细节:

一名中年波利尼西亚男性冲浪者有被阳光吻过的皮肤,他举着50种物品,奋力冲浪,其中包括茶杯、自行车、雨伞……海浪在他周围拍打,他的表情充满决心和轻微的恐慌,试图平衡这些物体和他的冲浪板。

结果一次尝试就得到了基本符合要求的图像,只是人物表情看起来更像是非常恐慌,而不是轻微恐慌。

58f3a283a2327dabaf3a287d4f4616dc.png

后来Nathan又提出换一个更低的视角的要求,这回ChatGPT把提示词中的人物描述换成了“一名西班牙老年女性”。

0d3f2ad5d162080440a77b5e7b72c196.png

围观网友都觉得非常惊人,但也指出为什么铅笔的大小与其他物体不成比例。

be7a634a1861be7fb67ef8a2a67faf79.png

有人猜测模型只是知道某样物体长什么样子,但不知道其相对大小,尤其钢笔宣传图片通常会采用近景。

c6c3cf1868b0ba2efe65183f5a5e550e.png

此外Nathan还从ChatGPT嘴里拷问出了用户都能控制画面的哪些参数。

ChatGPT回复如下:

  • 描述:您可以提供所需图像的详细描述。您越具体和详细,生成的图像就越接近您的愿望。

  • 风格和媒介:您可以指定图像的风格或媒介,例如“油画”、“照片”、“插画”、“卡通”、“水彩画”、“3D渲染”等。

  • 分辨率:默认情况下,图像以1729x1024分辨率生成。但如果您的描述建议使用全身肖像或更适合高纵横比的内容,则将以1024x1792生成图像。如果需要,您还可以请求正方形分辨率 (1024x1024)。

  • 图片数量:如果您没有指定,我通常会根据您的描述创建四个不同的图片。但是,您可以请求特定数量(最多四个)。

  • 修改:如果您对初始结果不满意,可以提供反馈并请求修改。虽然我无法直接修改现有图像,但我可以使用您的反馈来生成更符合您的愿景的新图像。

  • 随机种子:如果您想修改以前的图像,我可以使用该图像元数据中的种子来生成新版本。这确保了原始图像和修改后的图像之间的一定一致性。

  • 请注意,存在某些限制。例如公众人物的形象,以及最近100年内的艺术家的风格,都无法直接创建。

重点在后面:

然而,我可以提供替代方案或使用形容词来捕捉特定风格的本质,而无需直接引用它。

be1a8b94f632ef02daf05fefe0f54dac.png

马骑宇航员难题破解

OpenAI内部员工中,Will DePue是最积极公开DALL·E 3试玩结果的了。

在马骑宇航员测试中,他表示其实也不是100%成功。

6e0cb6d73aca2d29a6855ca988067907.png

两至三次尝试之内就能搞定,因为GPT-4在与你一起完善提示词,直到写对为止。

只要付出一些努力,你就能得到几乎所有想要的。

487d242c6efb83492522ed5fa6ca22f9.png

有网友尝试用MidJourney获得相同的结果,只能说也不是完全不行,就是要费老大劲了。

几乎不可能,需要大量的提示工程,而且很难复现。

如果你是MidJourney资深用户,不妨试试能不能成。

1f6f3acbddb23a715409c3871b820b9f.png

网友提出的“8个长颈鹿喝水”挑战中,DALL·E 3再一次展现出很难把数字数准确的弱点

1c82bd3635a4d567bff7d8c70e76f577.png数数图中一共有几个长颈鹿

更多错误尝试中还出现了一个双头长颈鹿。

c0fa09d77b8db7bfc01b8eeafb04d8f9.png

让AI正确计数这次没有解决,但至少解决了理解空间关系的问题。

f55c4dae196a7482640a3624a0e155b1.png

网友提出的“四匹斑马在草原上奔跑,一头狮子在后面追赶,上面有一只鹰,图片中没有其他动物”挑战中,空间关系基本正确,但是多了一只斑马。

710fcb9323896535d64c9733d7145a06.png

相比之下,DALL·E 2和Stable Diffusion对空间关系的理解都要更差。

7a9901b172da81325c8aa25087c35589.png

OpenAI负责ChatGPT企业版的Adam Goldberg也晒出不少高质量结果,不过没有分享提示词。

68fd2393a04a72929838d6bb6488c467.png

19110876dc1ddbcc1905160fc486875c.png

负责AI写代码和调用工具的Jerry Tworek则搞出不少抽象概念画,如“机械细胞的分裂”

83fc91da897c02b3ba1441c2f170376e.png

以及“横跨银河系的计算机程序树”

c1791f5582e87660d4229e9876f8f3d1.png

微软OpenAI通力合作

DALL·E 3这次巨大提升,除了整合ChatGPT,图像生成部分具体是怎么做到的呢?

很可惜,鉴于OpenAI越来越Close的趋势,很可能不会像前两代那样公布论文了,只能从贡献名单中略作猜测。

DALL·E 2论文共有5位作者。

9158e5a2e51564c9f8df8601ba00d329.png

而DALL·E 3暂且不看产品、安全、公共沟通和法律等团队,光研究部分就有18人参与

7702ab6a00316e446dbfcf566e981e32.png

其中提出一致性模型(Consistency Models)的清华校友宋飏(Yang Song)在列。

一致性模型比当前最流行的扩散模型速度更快,3.5秒就能生成64张256*256的图像。

但宋飏此次属于次要研究贡献,不确定是否DALL·E 3使用了一致性模型,更可能是在改良扩散模型中借鉴了他的方法。

此外,除了DALL·E 2作者和ChatGPT团队的欧阳龙等,至少有3位研究者来自微软。

Jianfeng Wang博士毕业于中科大,在微软任主任研究员。

Lijuan Wang博士毕业于清华大学,在微软任主任研究经理。

两人曾参与无限画布图片生成NUWA-Ininity的研究。

8741359b2edaf9f33c663bae1dc99d13.png

李琳婕(Lindsey Li)是北理工校友,分别从普渡大学和UC圣地亚哥获得两个硕士学位,在微软任资深研究员,在多模态领域有多篇顶会论文。

9050b848ec8e33085e5bc3f331dc62e6.png

除了研究方面,DALL·E 3的推理优化微软DeepSpeed团队深度参与。

Deepspeed是开源的深度学习优化库,减少计算功耗和内存使用,在现有硬件上通过更好的并行来训练和推理大规模分布式模型。

a7ae44cc4fabb5a5184054da2e16354f.png

其中不少人都表示很高兴能参与这项工作,并对DALL·E 3的发布很激动。

1c1a2722d72b5c794ff2261885da630d.png

最后,在特别贡献中,微软的Bing首席执行官Mikhail ParakhinAzure云首席副总裁Misha Bilenko都在其中。

70be6c3a641809f4925f067f52838537.png

微软之前的发布活动中也确认了Bing会直接集成DALL·E 3。

c2985e3ce4f44b0df6adeeb45ffcb66a.png

按照现在规则,Bing上的DALL·E 2是免费的。会发放99个加速代币,没代币只是需要更长时间排队。

7f8e607ba0735daf4a06cf5118cfd143.jpeg

虽然10月份DALL·E 3在ChatGPT Plus要收费每月20美元。

但既然GPT-4在Bing上是免费提供的,将来DALL·E 3免费玩也可以期待一波了~‍

参考链接:
[1]https://x.com/willdepue/status/1705005718666158107
[2]https://x.com/CitizenPlain/status/1705248617131291032
[3]https://x.com/MParakhin/status/1704563792645079143

点击进入—>【目标检测和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值