RAPHAEL

商汤大模型团队推出了文生图模型RAPHAEL,它在速度和质量上超越了StableDiffusionXL、DALL-E2等,通过Space-MoE、Time-MoE和Edge-supervisedlearning模块提升性能。在FID和人类评估中表现出色,提供在线试玩链接供用户体验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

商汤大模型团队提出的文生图大模型RAPHAEL, 可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了Stable Diffusion XL,DALL-E 2,DeepFloyd等模型。基于混合去噪路径的文生图大模型

自从2022年开始,以Stable Diffusion, ChatGPT为代表的生成式AI席卷了整个AI社区,AI大模型也走进了公众的视野。本文将介绍商汤大模型团队提出的文生图大模型RAPHAEL(体验链接见第五节), 可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了Stable Diffusion XL,DALL-E 2,DeepFloyd等模型。

本文共提出了三个组件: Space-MoE, Time-MoE, 以及Edge-supervised learning模块。Space-MoE找出了文本中每一个token在图片中对应的区域,用不同的expert来处理不同的区域,最后再融合;Time-MoE模块使得模型能够在不同的timestep上选择不同的expert;这些MoE事实上组成了一系列的diffusion path,用来画某一类名词,动词,或者形容词。这些词的diffusion path都可以被XGBoost算法分开,证明了每一个path负责一个词。Edge-supervised learning模块则帮助模型更好的学习到图片的结构信息。我们也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。我们使用了清洗后的LAION-5B以及一些内部数据集来训练RAPHAEL,超参数文中都有提供。实验也遇到了很多血泪史,以后有机会的话再和大家分享。具体的网络结构见下图:

实验指标

3.1. 我们首先在FID上进行了测试,FID是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,我们在这一项指标上击败了所有写了论文的模型,比如Stable Diffusion,DALL-E 2等,达到6.61。

3.2. 我们同时也基于人类评估给出了一些指标,结论发现RAPHAEL在图文匹配度以及生成质量上均超过了Stable Diffusion XL,DeepFloyd, DALL-E 2,如下图所示

放图环节

接下来就是大家喜闻乐见的秀图环节啦,在做过大量的测试后,可以认为RAPHAEL效果优于Stable Diffusion XL, DALL-E 2,DeepFloyd等模型。由于篇幅的限制,没办法放更多了,而且为了方便浏览压缩了清晰度,大家可以自己上手玩,一试便~

体验链接

我们提供了将RAPHAEL作为基座的artist v0.3.0 beta模型的在线试玩链接,可以在https://miaohua.sensetime.com/zh-CN/中免费试玩(注意不要选错模型了),相信这是世界上最一流的免费体验的文生图大模型之一。同时,我们也设置了反馈按钮(在生成图的旁边)来帮我们不断优化,希望大家可以积极体验反馈,也帮忙和亲朋好友宣传一下,多多支持我们国产大模型~

一些tips

可能绝大部分同学没有学习过怎么写文生图的prompt,于是我们也提供了描述词优化功能,可以将简单的prompt扩展成能得到优秀效果的prompt。当然,一些国外的网站也提供了一些优秀的prompt库:   whaosoft aiot http://143ai.com  

https://lexica.art/

https://www.midjourney.com/app/feed/

https://app.prompthub.studio/

同时建议大家把步数拉到100,图片质量会更佳。

论文引用

https://arxiv.org/abs/2305.18295

@article{xue2023raphael,

title={Raphael: Text-to-image generation via large mixture of diffusion paths},

author={Xue, Zeyue and Song, Guanglu and Guo, Qiushan and Liu, Boxiao and Zong, Zhuofan and Liu, Yu and Luo, Ping},

journal={arXiv preprint arXiv:2305.18295},

year={2023}

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值