“ OpenAI最近推出了新一代多模态AI模型DALL·E 3,相较前代在图像生成质量和细节方面有显著提升,并可根据文本描述生成对应图像。与此同时,DALL·E 3也原生集成在语言模型ChatGPT内部,使得语言提示直接转换为图像成为可能,极大简化了用户的使用流程。DALL·E 3的推出标志着ChatGPT继续向多模态方向进化,也使得未来智能代理具备语言理解和图像生成的能力又近了一步。同时,OpenAI表示会继续完善内容审核机制,以确保负责任地使用这项新技术。”
01
—
有朋友说OpenAI推出了DALL·E 3,在生成图像功能上,比版本2改进了很多。去网站上看了一下官方的介绍资料。
DALL·E 3 目前处于研究预览阶段,将于 10 月份通过 API 向 ChatGPT Plus 和企业客户提供。
DALL-E于2021年1月推出,是语言处理模型GPT-3的变体,这是OpenAI的另一个大模型,可以根据文本提示词生成图像。
DALL-E中的“DALL”向超现实主义艺术家萨尔瓦多·达利(Salvador Dalí)致敬,而“E”则指皮克斯的电影《机器人总动员》中的机器人主角:Wall-E(Waste Allocation Load Lifter Earth Class,地球版垃圾配置承载起重机)
下面是用DALL·E 3生成的示例。
中心被挖去一个大洞的牛油果坐在治疗师旁边的椅子上,说“我只是感觉内心很空虚”,旁边勺子治疗师拿着笔记录着对话。
深黑色背景前面是一个女性舞者的身影,她的皮肤丰润而有光泽,画面捕捉到在旋转中舞姿这一瞬间,她的卷发在深黑色的背景前,像风暴一样在她身后飘扬。她的裙子就像大理石和瓷器碎片的旋风。舞者在散落的瓷片光芒的照耀下,营造出一种梦幻般的氛围,看似支离破碎,却又保持着和谐流畅的形态。
从上面给的图像看,发布的DALL·E 3比前一个版本,能理解更多的细微差别和细节,这使得用户能够更省事的将设想转化为比较准确的图像,着重强调降低用户提示上的难度,关注更多文本的细节。
下面是另外一个关注文本细节的图像例子。
四处细节:
The sidewalks bustling with pedestrains enjoying the nightlife. 人行道上挤满了享受夜生活的行人。
A bustling city street under the shine of a full moon. 满月照耀下熙熙攘攘的城市街道。
At the corner stall, a young woman with fiery red hair, dressed in a signature velvet cloak, is haggling with the grumpy old vendor. 在街角的摊位上,一位红头发、身着标志性天鹅绒斗篷的年轻女子正在与看上去脾气暴躁的小贩老头砍价。
The grumpy vendor, a tall, sophisticated man, is wearing a sharp suit sports a noteworthy moustache and is animatedly conversing on his steampunk telphone. 这个看上去脾气暴躁的小贩是一个高大老练的男人,穿着一套笔挺的西装,留着两缕漂亮的胡子,在跟他手上的手机上不停的说着什么。
02
—
DALL·E3是在ChatGPT上原生构建的。
这点很重要!区别于现在的AI生成图像模型Midjourney 和 Stable Diffusion,这两个模型只能根据文字生成图像,不能生成文字,虽然目前看起来DALL生成的图片质量上不如后两者。
这标志着ChatGPT 在向多模态大模型又前进了一大步。在《大模型应用发展的方向|代理 Agent 的兴起及其未来(下)》提及:未来的智能代理一定会有图像的输入理解和图像的输出。
我们之前使用文生图AI工具的通常的做法:
首先通过ChatGPT等聊天机器人,用简单的提示词生成丰富的图像描述文本;
然后再进入文生图软件,用图像描述文本生成图片。
如果生成效果不佳,就需要对不满意的细节,调整提示词,反复操作多次,同时还要一点运气,称之为“抽卡”。
ChatGPT+DALL·E 3的组合则直接省去了中间步骤,只要问ChatGPT你想在任何内容中看到什么,不管是从简单的句子还是到详细的段落都可以。
下方是一个DALL·E 3的使用效果视频:一个家长为5岁宝宝讲一个故事,并生成了相应的插画。
问:“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’——它会长什么样子?”
ChatGPT生成了四段描述该刺猬的文字,随即根据文字生成了相应的图像。
选择其中一张图像,并追问:“我的女儿说这只刺猬名字叫Larry,可以提供更多它的图像吗?”
ChatGPT此时根据用户选择的刺猬形象,生成了更多不同画风的图像。
接着想看看Larry的房子,ChatGPT便生成了一张Larry在房门口检查信箱的画面。
注意!信箱上甚至写着刺猬的名字“LARRY”。这意味着DALL·E 3实现了在图像上写字的功能。而之前文生图工具被被诟病的“无法在图像上生成文字”的问题,这意味着DALL·E 3实现了在图像上写字的功能。
同样的图像生成文字工具 Stable Diffusion 也是专门发布了一个 SD-XL 版本解决图像上写字的问题。
利用ChatGPT的文字生成功能,这只小刺猬还可以拥有自己的“人设”。
问:“是什么让它如此‘了不起’?”
ChatGPT回答,是因为他有着向日葵花瓣作为“刺”,并且很善良。
如果问:“它的善良是如何体现的?”
ChatGPT便生成了一幅漂亮的插画:Larry和蝴蝶、小鹿以及其他的小刺猬伙伴们一起在草丛上玩耍。
最后,当询问:“是否可以基于这些内容讲一个睡前故事?”
ChatGPT便生成了一个名为“了不起的向日葵刺猬Larry”的故事。
原视频1分钟比较长,感兴趣的朋友可以在官网看全部过程。
03
—
作品版权及模型安全
关于用户创作出来的版权,OpenAI宣布:使用 DALL·E 3 创建的图像可供您使用,无需我们的许可即可重印、出售或销售它们。
在图像侵权方面,DALL·E 3会拒绝要求模仿在世艺术家的风格,且创作者们可以通过填写表单,要求OpenAI将他们的作品从模型训练中删除。
模型的安全方面,团队通过红队网络合作,提高了风险领域的安全性,拒绝生成包含公众人物的内容,并采取了相应的措施来限制DALL·E 3生成含有暴力、成人、仇恨等违规内容的能力。
在的数字水印方面,OpenAI称正在研究识别AI生成图像的方法。
目前正在测试一种工具,用于内部识别图像是否由DALL·E 3生成,并希望使用这一工具可以更好地了解图像的生成方式。该工具相关的信息也会在将来公布。
参考资料
https://openai.com/dall-e-3
阅读推荐:
大模型应用发展的方向|代理 Agent 的兴起及其未来(下)
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
超越 ChatGPT-4,谷歌结合 AlphaGo 技术的多模态大模型 Gemini 已小范围内测
国外报告90%的AI类产品公司已经实现盈利,而国内大模型和AIGC的访谈说太卷了
你好,我是百川大模型|国内可开源免费商用Baichuan2揭秘
拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。