移动端AI绘图新突破:2秒文字转图像,Stable Diffusion模型引领潮流;Stability AI发布Uncrop Clipdrop,一键扩展图片边界

再炸AI绘图圈:2秒文成图,最快的移动端Stable Diffusion模型;Stability AI推出Uncrop Clipdrop更新一键扩图

1. 最快的移动端 Stable Diffusion 模型——SnapFusion

起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?这个无法给出具体答案,但是可以确定的是AI作图在技术和速度上的突破,很可能已经接近甚至超过阈值。

最近,Snap 研究院推出最新高性能 Stable Diffusion 模型——SnapFusion,已经算是 “一秒出图” 的 Stable Diffusion 模型了。通过对网络结构、训练流程、损失函数全方位进行优化,在 iPhone 14 Pro 上实现 2 秒出图(512x512),且比 SD-v1.5 取得更好的 CLIP score。

论文地址:
https://arxiv.org/pdf/2306.00980.pdf

项目网站:
https://snap-research.github.io/SnapFusion

Stable Diffusion (SD)是当前最热门的文本到图像(text to image)生成扩散模型。虽然在图像生成方面很强大,但所需的计算资源极大且推理碎度很慢。以 SD-v1.5 为例,即使用半精度存储,其模型大小也有 1.7GB,近 10 亿参数,端上推理时间往往要接近 2min。

对于推理速度慢的问题,目前主要有2种解决方向:(1)减少推理步数,以及(2)工程技巧优化。

Stable Diffusion 模型分为三部分:VAE encoder/decoder, text encoder, UNet。

此次 SnapFusion 主要是对 UNet 进行优化,具体分为两部分:

(1)UNet 结构上的优化:通过分析原有 UNet 的速度瓶颈,本文提出一套 UNet 结构自动评估、进化流程,得到了更为高效的 UNet 结构(称为 Efficient UNet)。

(2)推理步数上的优化:众所周知,扩散模型在推理时是一个迭代的去噪过程,迭代的步数越多,生成图片的质量越高,但时间代价也随着迭代步数线性增加。为了减少步数并维持图片质量,Snap团队提出一种 CFG-aware 蒸馏损失函数,在训练过程中显式考虑 CFG (Classifier-Free Guidance)的作用,这一损失函数被证明是提升 CLIP score 的关键!

通过下表1,我们可以看到 SD-v1.5 与 SnapFusion 的差距:SnapFusion 模型的速度提升来源于 UNet 和 VAE decoder 两个部分。UNet 部分的改进最大:一是单次 latency 下降(1700ms -> 230ms,7.4x 加速),这是通过提出的 Efficient UNet 结构得到的;二是 Inference steps 降低(50 -> 8,6.25x 加速),这是通过提出的 CFG-aware Distillation 得到的。

如下图所示,SnapFusion 对比 SD-v1.5 text to image,实现了推理时间大幅缩减并维持图像质量不降。CLIP score 衡量图片与文本的语义吻合程度,越大越好;FID 衡量生成图片与真实图片之间的分布距离(一般被认为是生成图片多样性的度量),越小越好。

2. Stability AI再放大招,Uncrop Clipdrop一键扩图+重构图

近日,Stability AI 联合 Clipdrop 推出了 Uncrop Clipdrop,可帮助用户一键扩展图片边界、改变尺寸。

在线免费体验地址:
https://clipdrop.co/uncrop

这个 Uncrop 功能,这个有点像 Photoshop 的 Generative Fill 的图像扩充功能。Clipdrop 称其为 AI 生成的“涂色”工具,可以通过创建扩展背景来补充任何现有照片或图像,从而改变任何因像的比例。

Uncrop 基于 stability AI 的文本到图像模型 Stable Diffusion XL。 Uncrop 允许用户通过重建图像和扩展他们的视觉面布来调整尺寸。比如横图变竖图,竖图变横图等。

Uncrop的使用方法非常简单:只需几个简单的步骤,用户就可以上传裁剪过的或不完美的因像。

第一步:上传图片。

第二步:选择要更改的尺寸,目前Uncrop支持最大尺寸是1024 x 1024。

第三步:点击Next生成效果。Uncrop会生成很多效果,可以点击向右按钮进行查看。

第四步:用户还可以结合其他功能对图片进行编辑,例如,选择一个“点燃”特效。

第五步:可随意更改效果灯的位置和亮度,为图片增加艺术效果。

欢迎各位关注我的个人微信公众号:
HsuDan
,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

  • 12
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值