让Stable Diffusion一秒出图!清华硕士加速神器爆火,已有公司接入

克雷西 发自 凹非寺  量子位 | 公众号 QbitAI

AI图像生成,已经进入了秒速级别,只要4步推理就能完成绘制,最快更是能在1秒之内完成。

现在,清华大学联合HuggingFace的研究人员,推出了全新的绘图模型加速模块。

作者给出的体验版当中,点击生成按钮后,模型只用了几秒钟就绘制出了4张清晰的图像。

f151cea7abc69bb2982d1bddb6bc9c64.gif

这个加速模块叫做LCM-LoRA,发布后不久就斩获了2k+次GitHub星标。

7cc3813c9ff706b7717ad185cd72742f.png

它不仅加速能力强、泛化性能好,适配的模型也很广泛,SD系和LoRA模型都能用它来加速。

团队基于LCM-LoRA自行优化的文生图模型已在HuggingFace上开放体验,图生图模型也推出了CoLab等版本。

b81ba9103538dc3da0b4641670d146c1.png

AI绘图工具迅速接入

LCM-LoRA开源后不久,就有AI绘图工具厂商Scenario宣布将基于它推出“实时绘图”功能。

Scenario的CEO还在𝕏上亲自展示了即将上线的实时绘图功能DEMO。

dedfeeaf48c743d253a489b22ce26a9d.png

只见一边在绘制草图,另一边AI就把相应的画作绘制好了,时间上几乎同步。

d6ecf44eaa2ebab9385c0cf40389721a.gif

调整提示词和有关参数,模型响应得也是干脆利落。

039fc245f8019dba04bc284de80b29f9.gif

这些DEMO发布后,引发了众人的一致赞叹。

cc8de1a3878c7687a940c4e82998dc8d.png

那么,LCM-LoRA这个加速模块到底有多强,又是怎样实现的呢?

“跳步”降低内存开销

LCM-LoRA将LoRA引入潜在一致性模型(LCM)的蒸馏过程,显著减少了训练内存开销,从而提高性能。

而LCM是从潜扩散模型(LDM)中蒸馏出来的,“蒸馏”的过程也可以看做是对扩散模型的微调。

它的核心思想是在图像的隐变量空间中学习一致性映射函数,该函数可以直接将扩散过程中的任意点映射到终点,即微分方程的解。

927af6cb0c3f050ac6880aa485ed9a1c.png

通过这种一致性映射,LCM可以跳过迭代采样过程,直接进行少步甚至一步采样,从而极大地加速了图像的生成。

而隐变量空间操作相比基于像素空间的方法,计算复杂度和内存需求也更低。

结合LoRA后,只需要训练低秩分解矩阵,可训练参数量和内存开销进一步减少,应用范围也从单纯的文生图扩展到了图生图和视频生成。

最直观体现的就是我们看到的秒速出图,而训练时间上,LCM-LoRA优化后的模型在A100上训练只需32个GPU时。

训练时间缩短的背后,也于训练参数量大幅减少密切相关:

  • SD-V1.5全量参数为9.8亿,使用LoRA后可训练参数减少到6750万,约减少了93.1%。

  • SSD-1B参数从13亿减少到1.05亿,约减少了91.9%。

  • SDXL参数从35亿减少到1.97亿,约减少了94.3%。

d2535e67840f73ffa79ea92b6f2c8793.png

不仅是训练消耗的降低,推理过程中的步数也大幅减少,一般只需要4步推理就能绘制出质量不错的图像。

da3cf83d2718ef6c7d5814ded419946a.png

有时甚至只要一步就能完成,用时还不到1秒,FID分数(越低越好)在50以下。

d98c48777b417378cbc1f53d23802319.png

不仅加速性能优异,LCM-LoRA的适配性也十分广泛。

LCM-LoRA训练得到的LoRA参数又称为加速向量,可以数据集上微调得到的LoRA参数直接线性组合,不需要额外训练。

776238c371555d97c6855118877fba01.png

这种组合方式使得LCM-LoRA成为一个可直接插接到各种微调模型中的通用图像生成加速模块。

作者简介

LCM和LCM-LoRA论文的两位主要作者是来自清华大学交叉信息研究院的研究生骆思勉(Simian Luo)和谭亦钦(Yiqin Tan)。

清华叉院的黄隆波副教授、李建副教授和赵行助理教授也参与了这两项研究。

在LCM-LoRA的工作中,来自HuggingFace的研究人员亦有贡献。

9ca800f83c37137c75313da29950a672.png

论文地址:
[1]https://arxiv.org/abs/2310.04378
[2]https://arxiv.org/abs/2311.05556

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

017bcaa8b9ec77c3ad4af9c0e84a169b.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值