Kandinsky-3:text-to-image diffusion model

最新推荐文章于 2025-05-11 23:06:06 发布

Kun Li

最新推荐文章于 2025-05-11 23:06:06 发布

阅读量674

点赞数 3

分类专栏：图像视频生成大模型文章标签： stable diffusion Kandinsky

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012193416/article/details/134919615

版权

图像视频生成大模型专栏收录该内容

279 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

Kandinsky-3是AI Forever团队开源的大型文生图模型，采用超大规模的text encoder（8.6B参数）。模型基于latent diffusion架构，结合Flan-UL2文本编码器，其文本特征通过cross attention嵌入到扩散模型中。与DALLE-2相比，Kandinsky-3的训练策略和结构有所改进，以提高生成图像的一致性和视觉质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kandinsky-3：最大的开源文生图模型 - 知乎在开源 Kandinsky 2.2之后，俄罗斯AI研究团队AI Forever又开源了新的文生图模型Kandinsky-3，这个模型最特别之处时采用了一个超大的text encoder（参数量为8.6B），导致模型总参数达到了11.9B，这应该是目前最大的…https://zhuanlan.zhihu.com/p/668853830kandinsky（瓦西里-康定斯基）是俄罗斯一个著名画家，公认的现在抽象绘画的开拓者。

1.Kandinsky 2.2

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。