Sora对手?Stable Diffusion 3强在哪?

本文介绍了StableDiffusion3,一款新型的人工神经网格模型,以其强大的文本到图像生成能力,挑战Sora成为行业焦点。文章详细比较了StableDiffusion3在文字渲染、复杂对象理解和画面质量上的提升,预示着AI生成内容领域的竞争加剧。
摘要由CSDN通过智能技术生成

今天我们还要说说AI

Stable Diffusion 3它来了!

每个库迪咖啡拐角处都有个瑞幸

每个麦当劳马路对面都有个肯德基

每个工商银行紧紧相邻个建设银行

发现其中奥妙了么?大佬旁边都得有个竞争对手,才能相互促进,共同进步造福百姓呀~

这就不得不提起近期火爆全网,让业内人士为之疯狂尖叫的Sora了!Sora当之无愧是新年出现的第一张王炸,更有甚者称它为AI生成视频类天花板!嘿,别急着土拨鼠尖叫,也别急着称它为王炸,历史总是惊人的相似,另一个“王”拿着咖啡,不紧不慢的走进了大众视野来和Sora抢“宝座”了!

是的!大王Sora的身边也出现了首个对家-Stable Diffusion 3

那“王冠”到底花落谁家,还得在座各位看过今天这篇文章,颁发给哪一位选手,您呐!说了算!

Stable Diffusion 3是啥

2024年2月22日Stability AI官宣Stable Diffusion 3!它是啥呢?用官方的话简单描述一下,它是一款文本到图像的人工神经网格模型,能用文本生成图像。

自2022年以来,我们看到Stability推出了一系列AI图像生成模型:Stable Diffusion 1.4、1.5、2.0、2.1、XL、XL Turbo ,现在是3了!!

秉承着一代更比一代强,再归来,它俨然已化身钮祜禄氏,浑身开大,它采用了爆火的Sora同样的Dit架构,又在文字渲染、复杂对象 理解能力、 画面质量 偷偷地下了很大的工夫,所出效果与战斗值拉满!就连曾风靡的Midjourney、DALL-E 3在它面前都显得黯然失色,不得不低头尊称为一声姐姐!

Stable Diffusion 3效果

目前呢,Stability AI并没有发布有关Stable Diffusion 3的更多细节与新的技术报告详解,在官网上可以了解到Stable Diffusion 3系列的模型具有不同的参数量,范围从800万到80亿,这样的设计可以让这些模型能够在多种便携设备上顺畅运行,可以显著降低AI大模型的部署难度。

透漏的信息虽不多,但是丝毫阻挡不了它超常发挥的一些亮眼表现。用这么多文字表述显得有些苍白无力,直接把“证据”端在大家面前,Stable Diffusion 3的王者之气会感受地更加直观!来吧,看效果图!

1.首先,展示一下文字渲染能力

他们在其官网上给了三幅含有文字的图片进行比对,不光文字清晰,而且也没有任何拼写错误!文字与场景的适配度也十分贴合,远近虚实、光影等把控的很好,非常具有艺术性!

在这里不得不提,有热心网友将Stable Diffusion 3与另两位“姐妹”进行对比,大家理性自行判断~

提示词(promp)

cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk

电影照片,教室的桌子上放着一个红苹果,黑板上用粉笔写着“go big or go home”

Midjourney ▼

DALL-E 3▼

Stability AI的首席执行官Mostaque也在社交媒体上无比自豪的连续操作,将生成带有文字的图片与粉丝们疯狂炫耀:

在这里插入图片描述

生成的图片和真的有啥区别?!可以说氛围感与创意感十足了!有一个坏消息就是目前不支持中文的文字渲染,but,支持中文渲染肯定是早晚的事儿哈!

2.接下来展示复杂对象理解能力的表现

用白话来解释一下,在以往的生成中,就算把关键字写出来了也难免有疏漏,但是经过一翻全新升级后,Stable Diffusion 3将本来就不弯的腰板挺得更直了,插着小腰,大有一副:落下一个,脑袋给你的架势!看一下官方给的图吧。

各种元素融合在一起,竟然毫不突兀,这种表现之下,未免有些神奇了哈!抽出来一张图与另外两姐妹进行下对比哈!

提示词(promp)

a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words “stable diffusion”

一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着「stable diffusion」。

生成结果如下,本以为Stable Diffusion 3会丢三落四,万万没想到,它竟然都理解了!就连角落的stable diffusion都完完整整的添加进去了,不得不说这一波操作确实让人有些害怕!

看看另外两姐妹的作业,秉承着争做老好人,谁都不得罪,才能不被追着打的信条,依然不做评价…(找不同这一游戏全权交给大家

Midjourney 6▼

DALL-E 3▼

3.最后要说的就是画面质量

Stable Diffusion 3在生成的图像质量上和之前相比较明显的进步不少,细节表现的更加细腻、颜色匹配也十分准确,难得可贵的是,在光影处理上的表现更加自然了。能听的懂人话,飞速捕捉用户的创意意图,使生成的图像更加逼真!好家伙,这一看一个不吱声!

请看例子,这个生成质量嘛!那是相当的可以,可谓是一山更比一山高,这超清晰的、色彩丰富细腻的特写镜头!单方面宣布哈,图片质量这一块,通过干部的考验了哈!

这变色龙生成的细节满满,说是摄像机拍摄的都得有人信!那它为什么表现得如此牛,和Sora并肩呢?不是说硬蹭Sora的热度,而是它们是有相同的“背景血缘”的!不信?请往下看!

Stable Diffusion 3的核心技术

关于核心技术方面,CEO发布了好长好长好长的文章,咱们就挑选几个最为重要的拎出来!

Stability AI与Sora团队一样,都选择了Diffusion transformer(DiT)架构作为新模型的基础。

除此之外,还结合流匹配等多项技术改进,增强了系统扩展性和多类型输入数据的处理能力!进一步增强了生成图像的质量和多样性。有助于模型更好地理解和模拟图像中的动态元素和结构,使得生成的图像在视觉上更加连贯和自然!

还有大家比较关心的问题:将以开源形式发布,通过预览版的测试来进一步提升系统的质量和安全性。发布时,将包含一套完整的工具。

关于Stable Diffusion 3的另外惊喜

来自CEO的超前点播!大boss称Stable Diffusion 3还有其他的功能,支持生成视频、3D以及更多类型的内容创作,并向我们展示了一番~

就问惊不惊喜,意不意外,视频中所见的所有元素再不影响其他元素前提下,都可以进行替换和删除,而且毫无违和感。这一功能实在是太吸引人了,忍不住想要去测试一番。

另外Stability AI首席执政官Mostaque也在Twitter给出了一个3D的视频:

看着效果还不错!简直就是惊喜连连看了,一波接着一波,具体还有什么能给大家更多的震撼还要去亲自测试喽。现在试用候补名单已经开放了,大家抓紧去申请哦。

申请地址:https://stability.ai/stablediffusion3

另外一个大惊喜就是Stable Video正式开放公测,背后还是基于Stable Video Diffusion 1.1!看来呀,真的是被Sora给逼急了!得稍微用点招数了。

体验地址:https://www.stablevideo.com/

以上就是今天的内容了,感兴趣的小伙伴快冲!

最后哈,大家决定好了“王冠”颁给谁么?全新的一年,被AI惊叹的震耳欲“龙”,今年一定是AIGC史上不平凡的一年,咱们呀且看且分析吧今天就以Stable Diffusion 3生成图与其他的对比图作为结尾吧!886~

提示词(promp)

Photo of an 90’s desktop computer on a work desk, on thecomputer screen it says “welcome”. On the wall in the background we seebeautiful graffiti with the text “SD3” very large on the wall.

一张 90 年代台式电脑放在办公桌上的照片,电脑屏幕上写着“欢迎”,墙上有非常漂亮的涂鸦,上面写着“SD3”。

Stable Diffusion 3▼

DALL-E▼

提示词(promp)

Night photo of a sports car with the text “SD3” on the side, the caris on a race track at high speed, a huge road sign with the text “faster”.

一辆跑车的夜间照片,侧面写着“SD3”文字,汽车在赛道上高速行驶巨大的路标上写着“faster”的文字。

提示词(promp)

Three transparent glass bottles on a wooden table. The one on theleft has red liquid and the number 1. The one in the middle has blue liquidand the number 2. The one on the right has green liquid and the number 3。

木桌上有三个透明玻璃瓶。左边的有红色液体,数字1。中间的有蓝色液体,数字2。右边的有绿色液体,数字3。

提示词(promp)

Anime style illustration of a newsstand on top of a small grassy hill.on top of the newsstand we see the text “it’s here!”. in the background wesee a big rain approaching.

动画风格的插图,在一个小草山的顶部有一个报摊,在报摊的顶部我们看到文字“it’s here!”。在背景中,我们看到一场大雨即将来临。

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

若有侵权,请联系删除
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值