快手可图大模型Kolors全面开源——一个更懂中文的文生图大模型

快手技术

于 2024-07-12 11:13:46 发布

阅读量8k

点赞数 36

文章标签：语言模型人工智能

本文链接：https://blog.csdn.net/kuaishoutech/article/details/140373022

版权

文生图开源社区迎来重大突破：比肩Midjourney-v6的开源文生图大模型来了！

7月6日，快手高级副总裁、主站业务与社区科学负责人盖坤（于越）在世界人工智能大会（WAIC）上宣布，快手旗下的文生图大模型可图（Kolors）将全面开源。可图（Kolors）支持中英文双语，生成效果比肩Midjourney-v6水平，支持长达256字符的文本输入，具备英文和中文写字能力。目前，可图（Kolors）已在Huggingface平台和GitHub上线，包括模型权重和完整代码，供个人开发者免费使用。

官网地址：

https://kwai-kolors.github.io/
Github 项目地址：

https://github.com/Kwai-Kolors/Kolors
Huggingface模型地址：

https://huggingface.co/Kwai-Kolors/Kolors
技术报告地址：

https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

在最近的智源FlagEval文生图模型评测榜单中，可图（Kolors）凭借其卓越表现，主观综合评分全球第二，仅次于闭源的DALL-E 3。尤其在主观图像质量上，可图（Kolors）表现突出，显著优于其他开源和闭源模型，评分排名第一。

图1. 智源FlagEval评测榜单

可图（Kolors）使用了基于U-Net架构的隐空间扩散模型，并创新性地引入了大语言模型进行文本表征。这使得可图（Kolors）具备强大的复杂长文本理解能力，并且具备中英文文字生成能力。同时，通过两阶段渐进训练策略（概念学习和美感提升），可图（Kolors）在图像美感和质量上达到了国际领先水平。

可图（Kolors）开源短短几天，在Github已收获2k star，Huggingface模型下载热榜第一。引发国内外开发者广泛热议。

一、可图的技术优势

1.1 大模型助力复杂语义理解

与当前使用英文CLIP作为文本编码器的文生图模型不同，可图（Kolors）使用了大语言模型ChatGLM3进行中英文文本表征。文本提示词长度达256字符，远超CLIP的77字符。

在大语言模型的加持下，可图（Kolors）展现出强大的复杂文本理解能力。如图2所示，面对DALL-E 3的经典提示文本，使用GLM的模型能够正确绘制多主体（如小贩和女子），并且画面中包含了所有元素（如满月、电话等）。针对文生图模型常见的颜色混淆问题，使用GLM后多种颜色的服饰与多主体能够准确对应。

图2. 复杂语义理解能力

同时，与DALL-E 3类似，可图团队对海量训练数据图像进行重打标来生成精细化文本描述。对比了多个开源多模态大语言模型，选择了效果相对较好的CogVLM进行打标。针对多模态大模型无法识别特定的概念，训练过程中采用混合描述的方式：50%用原始文本，50%用合成的文本。这种方法在SD3发表前便已应用。

可图（Kolors）的一大亮点是其文字生成能力，特别是中文写字。可图团队专门构建了一个覆盖五万余个常用汉字的中文写字数据集，包括合成数据以及真实数据。尽管DALL-E 3和SD3支持英文文字生成，但可图（Kolors）是第一个原生支持中文文字生成的文生图模型（无Control逻辑）。如图3所示，可图（Kolors）能够准确绘制简单甚至结构复杂的汉字，且文字与背景之间的贴合感弱。同时，可图（Kolors）也支持英文文字生成，并蕴含一定的设计美学与创意。

图3. 中英文文字生成能力

此外，面对SD3的超高难度复杂提示，可图（Kolors）依然表现出色，准确绘制了对应的数量、位置、颜色、英文、中文和数字等多种属性。

图4. 超高难度的复杂文本遵循能力

1.2 训练策略优化展现摄影级美感

可图（Kolors）在主观图像质量方面的卓越表现，主要得益于其训练策略的优化。可图（Kolors）将模型训练划分成两个关键阶段：概念学习与质量微调。在概念学习阶段，可图（Kolors）使用了数十亿图像文本对进行训练，覆盖了广泛实体概念。在质量微调阶段，采用了更为精细的数据筛选机制，从海量数据中精选出数百万张兼具高质量与高美感的图像，用于对模型进行精细调整。此外，可图（Kolors）还提出了全新的加噪策略，该策略针对高分辨率图像的特性进行了优化，有效提升了模型在生成高分辨率图像时的稳定性。这一系列训练策略的优化措施大幅提升了模型的出图质量和美感。如图5所示，通过对比模型在高质量微调前后的效果，可以直观地感受到这种改进所带来的积极影响。

图5. 质量微调前后对比图

此外，如图6所示，可图（Kolors）在人像、建筑、动物、超现实、风格化、中国元素等多个类目均有出色表现。更多案例详见技术报告。

图6. 可图（Kolors）生成图像展示

二、模型评测

为了主观评测文生图模型的生成能力，快手可图团队提出一个新的文生图评测集合KolorsPrompts，涵盖了14个垂类并归纳出12个挑战项。模型针对每个prompt分别生成4幅图像，并邀请约50名专业评测人员对每幅图像进行5次打分，评估维度包括综合满意度、图像质量、图文相关性三个维度。从图7中可以看出，可图（Kolors）在综合满意度达到Midjourney-v6水平，特别在图像质量上，可图（Kolors）对比目前开源和闭源模型优势显著，这与智源的评估结果一致。

图7. KolorsPrompts评测集分布情况和人工评测结果

同时，采用快手CVPR2024最新提出的MPS (Multi-dimensional Human preference Score) 机评指标来进行模型评估。可图（Kolors）也取得了最高MPS分数，这与人工评估的指标一致。

三、应用案例精选

目前，可图文生图大模型的能力已经广泛落地到快手的下游业务中，包括AI玩评、主站魔表、快影等多个场景。快手在今年5月31日完成可图大模型的对外开放，支持文生图和图生图两类功能，已上线多种风格。目前可图大模型的各项功能已经集成至可灵AI中，普通用户可以通过可灵AI官方网站和可图大模型微信小程序免费使用各项功能。

可灵AI官网链接（点击文末“阅读原文”，即可直达）：

https://klingai.kuaishou.com/

👇点击下图，即可跳转至“可图大模型”小程序，快来体验吧！

应用实践 1：IP定制

使用Dreambooth & Lora实现模型微调和IP定制。下图为快手吉祥物小快和招财鸭IP。

应用实践 2：AI人像

人像ID保持，支持多种风格化人像，增加玩法趣味性。

应用实践3：虚拟试衣

开放域虚拟试穿呈现出业务落地的技术可行性，千人千面的商品素材生成从此将成为可能。

四、未来展望

快手此次开源了具备强大复杂语义理解和高质量图像生成能力的基座模型可图（Kolors），并计划陆续开源可图（Kolors）的相关应用，如ControlNet等。目前开源社区反响热烈，已经有开发者提供了加速、ComfyUI等应用。这一系列开源项目的产生，将为开发者提供更加全面和多样化的工具和资源，进一步丰富文生图领域的开源生态，为探索更多的应用场景和技术创新提供便利，共同推动文生图技术的进步和普及。