![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AIGC
文章平均质量分 80
Kuekua-seu
努力学习AI算法!
博客:kuekua.github.io
展开
-
热门文生图模型
中文文生图能力,进一步提升文生图质量。原创 2024-07-12 11:37:22 · 28 阅读 · 0 评论 -
生成图质量评价
如何对生成图质量进行算法评价,以优化图片质量,提升模型生成能力。原创 2024-07-09 12:26:50 · 295 阅读 · 0 评论 -
Vision Transformer
以上是self-attention的原理,但是还有一个问题是:现在的self-attention中没有位置的信息,一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的,没有表示位置的信息(No position information in self attention)。k,v来自Transformer Encoder的输出,所以可以看做句子(Sequence)/图片(image)的内容信息(content,比如句意是:“我有一只猫”,图片内容是:“有几辆车,几个人等等”)。原创 2024-05-31 12:11:35 · 950 阅读 · 0 评论 -
Diffusion model经典论文
Diffusion model现状:比GAN训练更稳定,生成多样性更好,但生成效果不如GAN。作者因此思考,是否可以通过优化网络结构,在真实度和多样性上进行平衡,让生成效果变好。如何在有限计算资源的前提下提升Diffusion model的生成效果。原创 2024-03-07 11:28:52 · 500 阅读 · 0 评论 -
Stable Diffusion条件控制生成---相关论文集合
新增一个cross-attention layers,结果与text prompt的cross-attention layers结果相加后输入网络,只需要训练Wk, Wv两个参数。如何将图片作为prompt输入网络,并无需更改开源模型参数。原创 2024-01-15 11:32:56 · 659 阅读 · 0 评论 -
文生图模型之Stable Diffusion
tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征。text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。原创 2023-08-25 15:42:28 · 1668 阅读 · 0 评论 -
AIGC学习资料总结
详细讲述了DALL·E的基本原理,DALL-E1相当于 VQVAE2+GPT(把pixel CNN换成了GPT),DALL-E2 是GLIDE + CLIP。视频还大篇幅讲述基础知识:AE,VAE,VQVAE,GAN,diffusion model的区别,着重讲述diffusion model的原理,还有classifier guided diffusion和classifier free diffusion。原创 2023-04-20 11:12:38 · 399 阅读 · 0 评论