神秘模型“小熊猫”一夜刷屏!排名超Flux、Midjourney,网友:一看就中国的

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

b4f2814f32175aa9a2e687e62e35b921.png

一水 发自 凹非寺
转载自:量子位(QbitAI)

一夜之间,名为“red_panda” (小熊猫)的神秘文生图模型狠狠火了!!

登顶文生图竞技场,直接将Flux、Midjourney等一众顶尖模型踩在脚下——

650b403e43bfbe41957e7d7648c5fb5f.jpeg

其ELO得分比Flux 1.1 Pro高出100多,胜率高达79%,每7秒就能生成一张图像。生成效果be like:

e9c3bc8a900a409302b154af0c870570.jpeg

啥概念呢?按网友的话说,这家伙搁这跳级呢!

这与从Flux 1 schnell到Flux 1.1 Pro的跳跃相同

b43bb87b0b3e54bcf7f51a87261e9125.png

除了强得可怕,red_panda由于无人认领,更是引发大家伙好奇心,各种猜测都有:

  • 鉴于生成质量过好,很可能是传说中的Midjourney V7或中杯Stable Diffusion 3.5;

  • 可能是OpenAI的DALL-E 4,因为Anthropic前员工在图片后缀里发现了OpenAI;

  • 也可能是Mistral AI的新模型,理由是在未公布的测试版中发现了相似名称“Pandragon”;

  • 或者来自Recraft文生图模型,因为它们曾使用小熊猫战士作为默认矢量提示;

  • ……

值得一提的是,有一些人猜测它可能出自中国厂商之手

0fec67796f6f718100402b39b79acd1c.png

不过你还真别说,一看这既red又panda的名称logo,中国味儿实在过于浓了。

8a158f52e2e6cb2fd11ad53b001babff.png

众说纷纭里,一位工程师小哥更是莫名被cue,网友:

@felix_red_panda,是你吗?

笑死,谁让你头像名称都很像~

7dcd9c47cfacf9ebf7a28030d6760962.png

竞技场实测效果

red_panda真的有这么强吗?量子位这就实测一下。

需要提醒的是,由于red_panda现身不久,因此目前只能在竞技场进行体验。

2d6f1f750ed78ee34e1068947f35a1e6.png

规则也很简单,随机两个匿名模型pk,用户只需选出最喜欢、觉得更符合提示词的图片就行。

下面我们直接展示捉到的red_panda,与其他模型的同题对比,直观看看效果。

第1关:SD 3 Medium(√) VS red_panda

A 3D render of an ancient artfact,intricately detailed and realistically textured,as if just unearthed.(一个古代文物的3D渲染图,细节错综复杂,纹理逼真,仿佛刚刚出土。)

e15605e89db35f38707ab014e372b37e.gif

第2关:red_panda VS SD 3.5 Large(√)

An elaborate Gothic cathedral with flying buttresses, stained glass windows, and a bell tower.(一幅精致的哥特式大教堂的图像,拥有飞扶壁、彩色玻璃窗和钟楼。)

a3ea6e040e0acfcb52fd1de95c74114f.gif

第3关:red_panda VS Flux.1 [dev](√)

An image of a financial advisor discussing investment strategies with a young couple in a modern office, emphasizing financial planning and long-term wealth management.(一张图片,展示了一位金融顾问在现代办公室里与一对年轻夫妇讨论投资策略,强调财务规划和长期财富管理。)

242736954a4345cc9b785da27c174725.gif

第4关:red_panda(√) VS neptune_next

Antarctic cruise ship poster.(南极游轮海报)

6e553d64dcdff22285927d8b2c317a76.gif

第5关:red_panda(√) VS Flux.1 [schnell]

A vintage, art nouveau-inspired perfume bottle with an elegant, curved design and an ornate, floral label reading “Essence of Elegance”, created as a 3D product render.(一个复古风格的、受新艺术运动启发的香水瓶,拥有优雅的曲线设计和装饰华丽的花卉标签,上面写着“优雅精华”,作为一个3D产品渲染图被创造出来。)

cdc0bc8f80e4947de05827005af0779c.gif

试玩结束,单从5局结果来看,神秘模型red_panda倒是没有想象中的压倒性胜利。

不过也可能是个人审美原因:

01f85e20fa3aab1568c56c16f6bd9854.png

感兴趣的朋友也可以去试试,看谁运气好能随机匹配上red_panda。(扩大样本招数有doge)

网友:中国造?

好的,现在问题同样来了:red_panda哪来的??

大部分人第一反应都是中国,理由也很直白:一是看起来就很china,二是国内目前在视频生成方面大有赶超之势,顺手做一个文生图模型也很正常。

几乎没有什么比这个名字更中国的了……

80e825341c64f4e1f4c6de146ef933bd.png

点名快手、字节、Minimax等,当你看到他们如何统治AI视频时,就知道它更有可能是一家在生成人工智能方面已经拥有丰富经验的公司的中国模型代号。

2f762b81e222bc3a9edd05bf8b5f9469.png

除了国内大厂,另一呼声来自Midjourney V7

Midjourney于8月1日发布了v 6.1版本,且官方一直透露正在测试V7,所以很多人猜测Midjourney有偷偷提前测试的可能。(匿名竞技场测试,很熟悉的配方了)

51d20804e9db588876cad56501c68188.png

还有人猜测是中杯Stable Diffusion 3.5,这是Stability AI上周发布的模型型号之一,拥有25亿参数,采用改进的MMDiT-X架构和训练方法,能够生成分辨率在0.25~2百万像素之间的图像。

难道是换个马甲来竞技场试试水?

b3e95f0279f74b6d174d6740b7ac4ced.png

除此之外,相对靠谱的猜测来自Anthropic前员工,“Dalle 4 = Red Panda”。

f83d0e7ed2da13e300bc4d8b76dccba0.png

他提供的证据如下,一张由DALL-E生成的图片命名中带有相关字符串。

d73700514344aadcec41a54b575ee1c3.png

不过也有网友出来反驳了,也许panda只是出于索引原因随机插入的?

6b5b094c8cef3ff1c27b4bc0fb25b109.png

更有人表示,OpenAI没必要再搞DALL-E,GPT-4o已经够用了,而且命名风格也和OpenAI不符~

fe7cee5f56f1e6a60bea0dac03bdf1ab.png

除了OpenAI,法国开源模型公司Mistral AI也榜上有名,不过这个比较牵强,只是因为名称相似。

本月早些时候,有消息称该公司正在测试新模型“Pandragon”,可能具有图像生成和网络搜索功能。

所以,没准是这个还未现身的测试模型~

c3095fadf3c866dae904d4173acb3d8c.png

不过当时也透露,Pandragon的图像生成功能可能会由黑森林实验室的Flux提供支持。

由此也引出“red_panda”很可能来自Flux的传闻:

34a31ce474d4d1c89a9f223d35e4aea3.png

好家伙,如果属实,这算是自己打败自己吗?(doge)

BTW,截至发稿前,虽然red_panda仍占据榜首,但它和后位选手的差距貌似正逐渐缩小。

ccc88d2374987f9b36f7296a91c21764.png

且让我等继续观望,顺便等个认领。

竞技场地址:
https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

参考链接:
[1]https://x.com/deedydas/status/1850680875832496577
[2]https://x.com/ArtificialAnlys/status/1850587843837771900
[3]https://www.testingcatalog.com/mistral-ai-prepares-to-release-new-pandragon-model-with-advanced-features/

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值