stable diffusion的额外信息融入方式

Kun Li

已于 2024-04-09 09:31:22 修改

阅读量408

点赞数 6

分类专栏：图像视频生成大模型文章标签： stable diffusion

于 2024-03-06 15:22:42 首次发布

本文链接：https://blog.csdn.net/u012193416/article/details/136501420

版权

图像视频生成大模型专栏收录该内容

167 篇文章 3 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

conditioning怎么往sd中添加，一般有三种，一种是直接和latent拼一下，另外很多是在unet结构Spatialtransformers上加，和文本特征一样，通过cross-attention往unet上加，这里还需要注意一点，在文本嵌入时，q是可学习的，k和v都是文本embedding。第三种就是类似controlnet这种，adapter设计。

1.sd img2img

sd的img2img的图像输入是通过VAE将图像转成image latent和latent一起拼的，将512x512的图转成64x64.

init_latent = sd_model.get_first_stage_encoding(sd_model.encode_first_stage(image))
image_conditioning = img2img_image_conditioning(image, init_latent, image_mask)

1.ip-adapter

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kun Li

关注关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
stable diffusion的额外信息融入方式

conditioning怎么往sd中添加，一般有三种，一种是直接和latent拼一下，另外很多是在unet结构Spatialtransformers上加，和文本特征一样，通过cross-attention往unet上加，这里还需要注意一点，在文本嵌入时，q是可学习的，k和v都是文本embedding。通过解耦cross-attention的方式，clip提取图像特征，文本输入一个crossattention，图像输入一个cross-attention。
复制链接

扫一扫