快手可图模型的要点

Kolors模型

摘要与介绍

Kolors是一个基于扩散的文本生成图像模型,能够生成高逼真度的图像,支持英文和中文。该模型结合了通用语言模型(GLM)和由多模态大语言模型生成的细粒度标题,从而提升了其理解和渲染能力。

关键见解与贡献
  1. 文本理解与渲染能力

    • Kolors使用GLM作为文本编码器,能够更好地理解复杂语义,尤其是在包含多个实体和详细描述的场景中。
    • 通过使用多模态大语言模型生成的细粒度标题,Kolors展示了其在处理复杂中文文本方面的强大能力。
  2. 双阶段训练策略

    • 概念学习阶段:使用广泛的知识进行训练,确保模型能够学习到广泛的概念。
    • 质量提升阶段:利用精心挑选的高美学数据,并引入新的调度策略优化高分辨率图像生成,显著提升生成图像的视觉效果。
  3. 人类评估与模型性能

    • 在KolorsPrompts基准测试上的综合人类评估显示,Kolors在视觉吸引力上表现优异,超越了大多数开源和闭源模型,包括Stable Diffusion 3、DALL-E 3和Playground-v2.5,并表现出与Midjourney-v6相当的性能。
方法
  • 增强文本忠实度

    • 使用GLM作为文本编码器,相较于传统的CLIP和T5系列,Kolors在处理复杂语义和细节描述方面表现更佳。
    • 采用50%原始文本和50%合成标题的策略,使得模型能够更好地学习和生成复杂的图像。
  • 提升中文文本渲染能力

    • 通过数据合成方法,构建包含五万个常用词汇和数千万对图像文本对的训练数据集。
    • 利用光学字符识别(OCR)和多模态语言模型,为真实图像生成新的描述,进一步提升中文文本渲染的真实感和质量。
  • 改进视觉吸引力

    • 使用高质量数据和新的训练方法,提升了图像生成的视觉效果,减少了对后期处理步骤(如图像放大和面部修复)的依赖。

数据合成过程
利用多模态语言模型生成详细描述:

光学字符识别(OCR):首先使用OCR技术从图像中提取文本信息。这些图像包括各种海报、标牌和场景文本。
多模态语言模型:使用多模态语言模型根据提取的文本信息生成详细的图像描述。这些描述不仅包含图像的视觉内容,还包含图像中各元素的关系和场景的语义信息。
通过这种方法,生成了数百万个图像-文本对,增强了数据集的多样性和真实性​(Kolors_paper)​。 概念学习阶段:

数据收集:从多个公共和专有数据集中收集大规模的图像-文本对数据。这些数据集包括LAION、DataComp、JourneyDB等。
初步过滤:对收集的数据进行初步过滤,确保数据的基本质量,如分辨率、清晰度和文本匹配度。
广泛训练:使用这些大规模数据训练模型,使其能够学习到广泛的视觉概念和语义关系​(Kolors_paper)​。 质量提升阶段:

高质量数据获取:对初步过滤后的数据进行更严格的筛选,选出数百万张高美学评分的图像。
人工标注:对这些高质量图像进行人工标注,确保每张图像的标签准确并且具有代表性。每张图像经过三次标注,通过投票决定最终标签​(Kolors_paper)​。
高分辨率训练:在这一阶段,模型专注于高分辨率图像的训练,采用新的调度策略,将训练步数从1000步扩展到1100步,以实现更低的终端信噪比,并调整β值以优化训练曲线​(Kolors_paper)​。
数据增强和优化:

使用各种数据增强技术,如随机裁剪、旋转、颜色调整等,进一步增加数据的多样性。
在训练过程中,应用分辨率缩放技术,将每个batch分成两部分,使用不同的分辨率进行编码,然后再拼接,以提升评分和训练效率​(Kolors_paper)​。

结论

Kolors通过结合GLM和细粒度标题,展示了在处理复杂语义和生成高逼真度图像方面的卓越能力。双阶段训练策略和高美学数据的使用,显著提升了生成图像的视觉吸引力。Kolors在多项基准测试中表现优异,未来将继续推动文本生成图像领域的发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值