超越恐怖谷!全球500万网友被骗,爆火TEDx演讲者没一个是真人?

👇我的小册 45章教程:(小白零基础用Python量化股票分析小册) ,原价299,限时特价2杯咖啡,满100人涨10元。

转自:新智元

7526f1d36304329d00ee4063e40629b6.png


【导读】最近,这几位TED演讲者,在外网形成了病毒式传播,然而,他们竟然全都不是真人?!答案揭晓后,五百万网友简直惊掉下巴。这5张图里,你能发现几个bug?

最近,这些「TED演讲者」在外网火得一塌糊涂,堪称病毒式传播。

仔细看看,你能发现什么问题吗?

4e8512668f21f03db612d145a1f13f80.png

a2eab69929c6dd8cd2c5fdf30c741a1d.png

c32ef2f787ca7c1c772ac0ea03dba6ca.png

419f90fb320958313ed3f74b5d1cb798.png

840a92e01ec5b6ecb065c29253cf741d.png

答案揭晓——这五个人中,没有一个是真人!

ea4511c890cbb1583e4eb4d040867f7b.png

在线寻人的小哥要哭了

如此逼真,几乎毫无破绽,这种级别的生图AI直接让网友们惊掉下巴。

甚至连AI识别软件,都认不出来这是AI生成的图。

1aef89b1f5819ea465aaed4217fd0864.png

「看起来真实,难道不是因为本来就是真实的照片?」

7bab0d6e205f3c795d729dc117cc04f3.png

「没有一张是真人吗?简直令人毛骨悚然!」

fcf3ec3ce0e24ca688eb13ff57e5c789.png

网友锐评:这已经超越了恐怖谷,到达了「超真实谷」。

de356b6d0de50f1718064aaa9dffc60e.png

短短十几个小时,分享这张图片的帖子,在推上的观看人数已经破了500万。

8373d767e1c6a80ef08cae1f58518eda.png

随后,作者也被扒了出来——他就是Stable Diffusion团队的前成员Leo Kadieff。

他揭秘道:这些TEDx演讲者,都是用最新的Flux真实版LoRA制作的。

以往的AI生图,人眼多少都会看出违和感,而这次的图片如此逼真,正是靠LoRA技术改进了模型,才大大增加了真实感。

并且,作者介绍说,这个工作流还有一个好处,就是大大简化了复杂的提示词。

这个消息,简直让提示词苦手们狂喜。

这个小小的22MB文件,就可以让我们省去麻烦,不必再在每个提示词中写一堆与真实性相关的Token。

一句「一张RAW超现实主义照片,UHD,8k」,足矣。现实主义爱好者,绝对爱死了这个工具。

f21eaf14dce4ced4783b9ab3d4133057.png

作者直言:我们还需要对现实模型进行微调吗?

- 这些图像是Flux+LoRA的原始输出,未经过任何放大或后期处理

- 你需要对应的「RealismLora」文件,以及ComfyUI工作流

17963459a9d03c98ce0af55ec408e6d9.png

Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main

ComfuUI:https://we.tl/t-zrC5tPFG17

真实版LoRA,效果拔群

从下面这两幅图中不难看出,用LoRA和不用LoRA的效果对比,果然十分明显。

dfbcfe4bd9fe362ecc62d4d9766dc7b7.png

d0fbd3a94f553c9c16a16d3165c15967.png

f85004f33c2c0698b25fa0e613710b24.png

网友已玩嗨

与此同时,「TED演讲者」的分享者Kyrannio,也尝试用Midjourney复刻了一波。

24276b491a572f19f0f3e118ca208fd7.png

最初的提示词如下:

一位女性在舞台上发言,来自谷歌,白色背景,企业标志被模糊处理,科技会议 --style raw --v 6.1

5903b8745b33a62f2fa97e33f34e65ba.png

0bdd1a5dd491673c520d1f755b9e5091.png

可以看出,生成效果还不错,但与Leo Kadieff生成的图片差距依然很大。

5dee2b606dece35aafdb6bc435dea890.png

接着,博主又进行了一些改进:

一位年轻女性微笑着在舞台上发言,来自谷歌,白色背景,企业标志被模糊处理,科技会议 --style raw --v 6.1

5ca21ce84a488d357024d43d79efffa8.png

并在经过多次生成之后,试出了最为接近的结果:

42c0d3f3065d677d789cca6ed72a0456.png

61e2f26812941f388d70367fcbe70ff3.png

c9778fb67ffb15d634920fd2797ea9f2.png

与此同时,随着谷歌Imagen 3公开可用,网友们也在第一时间拿着这套prompt进行了尝试。

一时间,全网都掀起AI生图的热潮。

1e8cbd3c1adc93ebccfc0cf1a57ddf92.png

876347242d3d511a19aa98e26df2c5da.png

e640a23f7793eae479f8468bfde70535.png

Imagen 3全员可用


没错,正如刚刚提到的,谷歌最强文生图模型Imagen 3已经正式开放可用了。

prompt:Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.

12314b9428bc73d6f145ab7020d79863.png

来源:Risphere

网友chrypnotoad表示,自己还没见过哪个AI能把阿喀琉斯之盾做得这么好的!

dedc836ca5be8c20777e7b7046b49efd.png

能轻松hold住如此复杂的prompt,Imagen 3果然不能小觑。

a84a3cf35d6ff6c2db1d869275a1151d.png

知名博主「歸藏」在体验之后表示:

生成的内容准确但图片美观度很差。只要涉及人物,你就得仔细斟酌提示词写法,不然大概率无法出图。

好在,他们在提示词的交互上做得很好:

LLM会分析提示词类型,并且给出相关词语你可以直接切换。

218fc23f4efe9ce1fac7dce4e93213b5.png

来源:歸藏

除了直接生成之外,Imagen 3还支持局部重绘功能,用画笔和提示词对图片进行编辑。

271ea9661f3937510bc37bec2afe7248.png

来源:歸藏

当然,几家顶流文生图AI的PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1[pro]。

d6a53986890b5073db2f3b002b1a615d.png

异色瞳的亚洲女性。

b5313d8a8200c5924f3273bcb139686a.png

美洲原住民。

c71f5a589fee3d4072e74d1c8d46608d.png

有美人痣的南亚妇女。

735bfbd1fb5206f6ad8f4cb1b4261f9f.png

疯狂的艺术家。

很遗憾,谷歌大概因为安全设置过于敏感,并不能生成这个prompt……

85c887a480ff87e9579b6ddb5b396fd7.png

留着八字胡的高加索老人。

26c58e2eb865fe484dda1e33c08f8cda.png

Runway也来蹭了一波,但…

趁着这股热度,Runway创意总监Nicolas Neubert,还用自家的Gen-3 Alpha生成了一段视频。

2ce1bb09a0667e4ca22cf8cf1a4f5fe1.png

果然,AI图片变成视频后,效果依然杠杠的!

d717495c2a0873849a071b4663b100d1.gif

而这个帖子,也同样引起了轰动。

45c0cc4176d5fbbf9ce5a8a772735ee8.png

网友赞叹道:从一年半前惨不忍睹的威尔·史密斯吃意面,到今天这个程度,进步可谓是疯狂的。

e2a96df4f54e7b199bde1e2def553256.png

同时,也有火眼金睛的网友发现,这个视频依然有一些细微的bug。

比如人的舌头不会动,牙齿有些弯曲、扁平,第4秒时左臂出现了奇怪的斑点,还有Google标志处的bug,也非常明显。

0645c2485947fec016ea3b7fea5f91bf.png

b83556ccb5d807bd0cbdc2a44b41bd8b.png

如果看得再仔细点,会发现所有的阴影都很不自然,比如麦克风的阴影。还有东西接触的地方,很多线条是乱的。

8eb80df054839de3d7b202d79690bd13.png

嘴唇的动作也不自然。

08d8f3e2b867056f8e627ded150df4b4.png

眼睛看起来仍然没有灵魂。

6274110f9d2d31c64d0e6ecd70394cf4.png

总的来说,相比于AI生图,目前AI视频的bug显然要多得多。

d921f066dd475ab83606ea45b9c84359.png

背后的原因还是在于,AI根本不理解人类的舌头、头发、眼睛究竟是什么东西。接下来的AI,还是要学会人体解剖和物理学才行。

763fc7c1c13b5188d72cfa8eac4ef840.png

而且,在文生图这块,Runway就要差得多了。

6cfde25da51ee3c7f456ce89e7336a0b.png

SD一作携原班人马创业,一出手就是王炸

说回到FLUX.1,其实在8月初的时候它就引起过一波热议。

Stable Diffusion一作、Stabililty AI核心成员Robin Rombach下场创业,官宣成立Black Forest Labs。

祭出的首个产品FLUX.1系列模型,效果直接秒杀Midjourney、DALL-E和Stable Diffusion!

1e2cab43de9f3b32c1c5d7180ca26151.png

根据官博的介绍,FLUX.1在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

尤其是FLUX.1[pro],经过测试在一众文生图模型中拔得头筹。

19650e087511c2a40849ec85b42ded5a.png

视觉质量、提示词遵循、尺寸/纵横比变化、排版和输出多样性

34204f43f2f3a06485cf7ffc7833369e.png

ELO得分

为了在可访问性和模型能力之间取得平衡,FLUX.1有三种变体:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]:

- FLUX.1 [pro]:FLUX.1的顶级版本,提供最先进的图像生成,具有一流的提示词跟随能力、视觉质量、图像细节和输出多样性。

- FLUX.1 [dev]是一个开放权重的指令蒸馏模型,用于非商业应用。由于是从FLUX.1 [pro]直接蒸馏而来,因此FLUX.1 [dev]不仅获得了强大的质量和提示词跟随能力,而且比同规模的标准模型更加高效。

- FLUX.1 [schnell]是最快的模型,专为本地开发和个人使用而设计。(schnell在德语中就是快的意思)

1f1553d368f3bc9b221c7f5e1a4697be.png

值得一提的是,所有FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,参数规模为120亿。

其中,团队通过构建流匹配(flow matching)改进了之前的扩散模型,并且通过结合旋转位置嵌入(rotary positional embeddings)和并行注意力层提高了模型性能和改进硬件效率。

团队成员

扒开Black Forest Labs主页,可以看到团队共有15位成员。

c2535fd875eed3278efc42a92fa106a4.png

创始人正是老熟人Robin Rombach。

fb35183a1ce53553dead874da4ff5446.png

Stability AI曾收购了Robin的Latent Diffusion模型,并聘请他成为首席科学家。

在Google Scholar网站上,Robin Rombach参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了9000多次引用。

02bf6bde77b9f8871135f6c236e9be74.png

期间他领导了全球著名文生图开源项目Stable Diffusion系列,这也是全球下载最多、使用最广的开源大模型之一。

8fd5092948bf4c6976c17bd22683833c.png

论文地址:https://arxiv.org/pdf/2112.10752

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD论文作者,也是Black Forest Labs创业团队的新成员。

除了Bjorn Ommer,可以说Robin将SD核心元老全都带走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin离职前发表的最后一篇论文。

2555f7008c38a3ca6ea271c359576d3e.png

论文地址:https://arxiv.org/abs/2403.12015

值得一提的是,在这篇论文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也参与了其中。

除此以外,新团队曾经的创新成果包括创建VQGAN和潜在扩散(Latent Diffusion)、用于图像和视频生成的SD模型(SD XL 、SVD)以及用于超快速实时图像合成的对抗扩散蒸馏(Adversarial Diffusion Distillation)。

再过一年,我们能看到的AI图片和视频,将是惊人的。

48b97ab3bfd67c5103e4ee2e9b946ff4.jpeg

最后推荐一下我们团队写的量化小册的内容,45篇内容!从Python安装,入门,数据分析,爬取股票基金的历史+实时数据,以及如何写一个简单量化策略,策略回测,如何看资金曲线统统都有介绍!非常超值!

3051ee7532c1ca94537fba1ad543a4b9.jpeg

欢迎订阅:原价299 早鸟价2杯咖啡钱,即可永久阅读。满500人又要涨价了,现在的价格非常非常低,只要2杯奶茶,就可以终身订阅+课程源码,还有永久陪伴群。48小时无理由退款,放心食用!

75ceaff1ba3512f586b48278e478848d.png

往期推荐
量化: 如何用Python爬取创业板历史+实时股票数据!|实战股票分析篇利用Pandas 9招挖掘五粮液股价!|实战股票数据分析篇 Pandas滚动操作 |量化股票第一步,用Python画股票K线,双均线图,可视化你的股票数据!|如何用Python爬取全部800多只ETF基金数据!|如何用Python写一个双均线策略 |如何用Python开发一个多策略机器人!上篇!|Python量化系列-用布林策略买五粮液能赚多少钱?|只要4秒钟!用Python 获取上证指数34年的历史日线数据!
 
 
入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径

干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影

趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!

AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影

小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!|  再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值