引言
俄罗斯AI研究团队AI Forever在开源领域再次取得显著成就,推出了Kandinsky-3模型。这一模型以其11.9B的庞大参数量,不仅刷新了开源文生图模型的规模纪录,也代表了俄罗斯在AI技术方面的重要突破。
Kandinsky 2.2与Kandinsky-3的演进
Kandinsky-3的前身Kandinsky 2.2结合了DALL-E 2和Latent Diffusion的特点,采用两阶段生成方案。虽然在某些方面取得了进步,但Kandinsky 2.2在属性理解和文本生成方面仍有局限。相比之下,Kandinsky-3放弃了原有架构,采用了直接文本引导的Latent Diffusion模型,显著提升了模型的文本理解能力和图像生成质量。
Kandinsky-3的技术革新
Kandinsky-3模型的核心在于其使用了谷歌的Flan-UL2作为text encoder,使其文本处理能力大幅提升。Flan-UL2的总参数量为20B,其中encoder部分就高达8.6B,是目前应用于文生图模型中最大的text encoder之一。这使得Kandinsky-3能处理更长的文本输入&#