超越恐怖谷!全球500万网友被骗,爆火TEDx演讲者没一个是真人?

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

6d579d20a5e853a30d3175ac18f9f73c.png

转载自:新智元 | 编辑:Aeneas 好困

【导读】最近,这几位TED演讲者,在外网形成了病毒式传播,然而,他们竟然全都不是真人?!答案揭晓后,五百万网友简直惊掉下巴。这5张图里,你能发现几个bug?

最近,这些「TED演讲者」在外网火得一塌糊涂,堪称病毒式传播。

仔细看看,你能发现什么问题吗?

cb730c4960b03b2320f237660ccaa14a.png

ada9e4531e4bb50a74eada03f5810ede.png

7285c3efa206441f36032b818e2abc24.png

5ca1e738508b7e711279cf3e24a68aff.png

23c6acda15e85eb9e245d3ce74c2ad79.png

答案揭晓——这五个人中,没有一个是真人!

29c10413d1d3657f53cd8b117abf9b68.png

在线寻人的小哥要哭了

如此逼真,几乎毫无破绽,这种级别的生图AI直接让网友们惊掉下巴。

甚至连AI识别软件,都认不出来这是AI生成的图。

4b9ba49fc6c695389d5728316aa119f4.png

「看起来真实,难道不是因为本来就是真实的照片?」

8dd8a57ff33a7a82437461f36a770f41.png

「没有一张是真人吗?简直令人毛骨悚然!」

6369e028b4a02cc3257538c98f497544.png

网友锐评:这已经超越了恐怖谷,到达了「超真实谷」。

152ad071a2c621b30b93b6fdcdee99dc.png

短短十几个小时,分享这张图片的帖子,在推上的观看人数已经破了500万。

0f7a7481ce34913caf711d6f8c3d07ec.png

随后,作者也被扒了出来——他就是Stable Diffusion团队的前成员Leo Kadieff。

他揭秘道:这些TEDx演讲者,都是用最新的Flux真实版LoRA制作的。

以往的AI生图,人眼多少都会看出违和感,而这次的图片如此逼真,正是靠LoRA技术改进了模型,才大大增加了真实感。

并且,作者介绍说,这个工作流还有一个好处,就是大大简化了复杂的提示词。

这个消息,简直让提示词苦手们狂喜。

这个小小的22MB文件,就可以让我们省去麻烦,不必再在每个提示词中写一堆与真实性相关的Token。

一句「一张RAW超现实主义照片,UHD,8k」,足矣。现实主义爱好者,绝对爱死了这个工具。

4736e993b9d8ecc0fd2c4cf71d1f0838.png

作者直言:我们还需要对现实模型进行微调吗?

- 这些图像是Flux+LoRA的原始输出,未经过任何放大或后期处理

- 你需要对应的「RealismLora」文件,以及ComfyUI工作流

68ac632ec85efd6963b6e7258f3ce337.png

Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main

ComfuUI:https://we.tl/t-zrC5tPFG17

真实版LoRA,效果拔群

从下面这两幅图中不难看出,用LoRA和不用LoRA的效果对比,果然十分明显。

e8b23742a13fd0716fba0dac2e3eb297.png

18dbfc5f98bfc165773f1d3dd492f1dd.png

ab2dc26572728c0b64810fd604d64c6e.png

网友已玩嗨

与此同时,「TED演讲者」的分享者Kyrannio,也尝试用Midjourney复刻了一波。

5875352f6b8e467d9c034178af98efea.png

最初的提示词如下:

一位女性在舞台上发言,来自谷歌,白色背景,企业标志被模糊处理,科技会议 --style raw --v 6.1

43b1164da6b1cdfd6fe15f3a7ef2217a.png

7fb498590f201f4aac6ae1dd6a4a9fb2.png

可以看出,生成效果还不错,但与Leo Kadieff生成的图片差距依然很大。

b5289891e79e42a60e2158ef35382578.png

接着,博主又进行了一些改进:

一位年轻女性微笑着在舞台上发言,来自谷歌,白色背景,企业标志被模糊处理,科技会议 --style raw --v 6.1

11b0801f19a6c3098e928e5f7409f205.png

并在经过多次生成之后,试出了最为接近的结果:

5a80d4563b729f43bbced9f842d11615.png

045cfda5eb1ae873e2baf095e3eee32b.png

e47cd9c1f1bb3f53ded50aff5c2b390a.png

与此同时,随着谷歌Imagen 3公开可用,网友们也在第一时间拿着这套prompt进行了尝试。

一时间,全网都掀起AI生图的热潮。

c257d54f838e4c9880a11cf6d180ef49.png

27702b11723dd2e3e4a26ddce16123f3.png

820d6bac269be7890eb6b5a54979d1ed.png

Imagen 3全员可用


没错,正如刚刚提到的,谷歌最强文生图模型Imagen 3已经正式开放可用了。

prompt:Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.

cdd75fdcd7bd74719e6c9301cfdc73fa.png

来源:Risphere

网友chrypnotoad表示,自己还没见过哪个AI能把阿喀琉斯之盾做得这么好的!

d7f2a8575590c26e12a7b1c7d666a729.png

能轻松hold住如此复杂的prompt,Imagen 3果然不能小觑。

574a875de9a8be58f61ce6649825daea.png

知名博主「歸藏」在体验之后表示:

生成的内容准确但图片美观度很差。只要涉及人物,你就得仔细斟酌提示词写法,不然大概率无法出图。

好在,他们在提示词的交互上做得很好:

LLM会分析提示词类型,并且给出相关词语你可以直接切换。

b130d80ca035763b373f9b1387961ed1.png

来源:歸藏

除了直接生成之外,Imagen 3还支持局部重绘功能,用画笔和提示词对图片进行编辑。

05b957b19a2942828b8ccc8e90ece061.png

来源:歸藏

当然,几家顶流文生图AI的PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1[pro]。

ef563e2977eee38de430348a83dda2e3.png

异色瞳的亚洲女性。

be74f94978b7e0b036db52aba2ec6be3.png

美洲原住民。

3fdfc599c7e7c02e9de972be496edeaf.png

有美人痣的南亚妇女。

f312e6e312a72fcc95981c3e12d1d25c.png

疯狂的艺术家。

很遗憾,谷歌大概因为安全设置过于敏感,并不能生成这个prompt……

13fff682d415cc5ff9bbec069878b474.png

留着八字胡的高加索老人。

ee9bd4440d1c68246b220f519b893f89.png

Runway也来蹭了一波,但…

趁着这股热度,Runway创意总监Nicolas Neubert,还用自家的Gen-3 Alpha生成了一段视频。

e27beefa45822aec15cd73e223b508ec.png

果然,AI图片变成视频后,效果依然杠杠的!

40501f28dec4964ce954ff712ef8e8b8.gif

而这个帖子,也同样引起了轰动。

8d75b6170fa3ac1e0a639495ade9b7a2.png

网友赞叹道:从一年半前惨不忍睹的威尔·史密斯吃意面,到今天这个程度,进步可谓是疯狂的。

d1c2dfe6417e94b57d325fa465d17f63.png

同时,也有火眼金睛的网友发现,这个视频依然有一些细微的bug。

比如人的舌头不会动,牙齿有些弯曲、扁平,第4秒时左臂出现了奇怪的斑点,还有Google标志处的bug,也非常明显。

f567eeb572c81657da31098c1d0b704b.png

38145ed46d8a7b651c6d6a4ac6f7ee11.png

如果看得再仔细点,会发现所有的阴影都很不自然,比如麦克风的阴影。还有东西接触的地方,很多线条是乱的。

4456b064e8889de0a3d43e8e9d2f3c99.png

嘴唇的动作也不自然。

7ead58b05fcc6c84cd0dc3c1cf9b13c6.png

眼睛看起来仍然没有灵魂。

e74429a2ee9cdccd7329f8125c3cf850.png

总的来说,相比于AI生图,目前AI视频的bug显然要多得多。

c0bdbd7c7a6f8817988002460308b63c.png

背后的原因还是在于,AI根本不理解人类的舌头、头发、眼睛究竟是什么东西。接下来的AI,还是要学会人体解剖和物理学才行。

0afcf6c1de040522d13daace98b0dafc.png

而且,在文生图这块,Runway就要差得多了。

eae25f6d6697355a87cee3fcdde4ce4a.png

SD一作携原班人马创业,一出手就是王炸

说回到FLUX.1,其实在8月初的时候它就引起过一波热议。

Stable Diffusion一作、Stabililty AI核心成员Robin Rombach下场创业,官宣成立Black Forest Labs。

祭出的首个产品FLUX.1系列模型,效果直接秒杀Midjourney、DALL-E和Stable Diffusion!

a03ae8fde277754c7f3859b89a49f670.png

根据官博的介绍,FLUX.1在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

尤其是FLUX.1[pro],经过测试在一众文生图模型中拔得头筹。

a00d1aa02412598f300f54767afc934b.png

视觉质量、提示词遵循、尺寸/纵横比变化、排版和输出多样性

02d249d843b0c347b80361df21a6bcc6.png

ELO得分

为了在可访问性和模型能力之间取得平衡,FLUX.1有三种变体:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]:

- FLUX.1 [pro]:FLUX.1的顶级版本,提供最先进的图像生成,具有一流的提示词跟随能力、视觉质量、图像细节和输出多样性。

- FLUX.1 [dev]是一个开放权重的指令蒸馏模型,用于非商业应用。由于是从FLUX.1 [pro]直接蒸馏而来,因此FLUX.1 [dev]不仅获得了强大的质量和提示词跟随能力,而且比同规模的标准模型更加高效。

- FLUX.1 [schnell]是最快的模型,专为本地开发和个人使用而设计。(schnell在德语中就是快的意思)

0de12d9db96efb16265ef498af8d88d7.png

值得一提的是,所有FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,参数规模为120亿。

其中,团队通过构建流匹配(flow matching)改进了之前的扩散模型,并且通过结合旋转位置嵌入(rotary positional embeddings)和并行注意力层提高了模型性能和改进硬件效率。

团队成员

扒开Black Forest Labs主页,可以看到团队共有15位成员。

4c574db00283065f4b625bca4bea49ee.png

创始人正是老熟人Robin Rombach。

9411a9d4f21ae99db726881bc2fde54d.png

Stability AI曾收购了Robin的Latent Diffusion模型,并聘请他成为首席科学家。

在Google Scholar网站上,Robin Rombach参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了9000多次引用。

7ebc87c98252466a4115d0f19e2e4b16.png

期间他领导了全球著名文生图开源项目Stable Diffusion系列,这也是全球下载最多、使用最广的开源大模型之一。

f1a24733dceeb2621d417534b4dd18ae.png

论文地址:https://arxiv.org/pdf/2112.10752

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD论文作者,也是Black Forest Labs创业团队的新成员。

除了Bjorn Ommer,可以说Robin将SD核心元老全都带走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin离职前发表的最后一篇论文。

e20309b9e103e90dc9dd17d82ce4442e.png

论文地址:https://arxiv.org/abs/2403.12015

值得一提的是,在这篇论文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也参与了其中。

除此以外,新团队曾经的创新成果包括创建VQGAN和潜在扩散(Latent Diffusion)、用于图像和视频生成的SD模型(SD XL 、SVD)以及用于超快速实时图像合成的对抗扩散蒸馏(Adversarial Diffusion Distillation)。

ee2a9cc9a7c664e90b7b2969e4885e61.jpeg

看来,AI生图和视频的进步速度,还在不断加快。

再过一年,我们能看到的AI图片和视频,将是惊人的。

参考资料:

https://x.com/koltregaskes/status/1821984829065588891

https://x.com/doganuraldesign/status/1821992421770850523

https://www.reddit.com/r/StableDiffusion/comments/1emrprx/feel_the_difference_between_using_flux_with/

https://www.linkedin.com/posts/leokadieff_ai-generativeai-filmmaking-activity-7227322182920536066-K980/#

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值