Kolors模型
摘要与介绍
Kolors是一个基于扩散的文本生成图像模型,能够生成高逼真度的图像,支持英文和中文。该模型结合了通用语言模型(GLM)和由多模态大语言模型生成的细粒度标题,从而提升了其理解和渲染能力。
关键见解与贡献
-
文本理解与渲染能力:
- Kolors使用GLM作为文本编码器,能够更好地理解复杂语义,尤其是在包含多个实体和详细描述的场景中。
- 通过使用多模态大语言模型生成的细粒度标题,Kolors展示了其在处理复杂中文文本方面的强大能力。
-
双阶段训练策略:
- 概念学习阶段:使用广泛的知识进行训练,确保模型能够学习到广泛的概念。
- 质量提升阶段:利用精心挑选的高美学数据,并引入新的调度策略优化高分辨率图像生成,显著提升生成图像的视觉效果。
-
人类评估与模型性能:
- 在KolorsPrompts基准测试上的综合人类评估显示,Kolors在视觉吸引力上表现优异,超越了大多数开源和闭源模型,包括Stable Diffusion 3、DALL-E 3和Playground-v2.5,并表现出与Midjourney-v6相当的性能。
方法
-
增强文本忠实度:
- 使用GLM作为文本编码器,相较于传统的CLIP和T5系列,Kolors在处理复杂语义和细节描述方面表现更佳。
- 采用50%原始文本和50%合成标题的策略,使得模型能够更好地学习和生成复杂的图像。
-
提升中文文本渲染能力:
- 通过数据合成方法,构建包含五万个常用词汇和数千万对图像文本对的训练数据集。
- 利用光学字符识别(OCR)和多模态语言模型,为真实图像生成新的描述,进一步提升中文文本渲染的真实感和质量。
-
改进视觉吸引力:
- 使用高质量数据和新的训练方法,提升了图像生成的视觉效果,减少了对后期处理步骤(如图像放大和面部修复)的依赖。
数据合成过程
利用多模态语言模型生成详细描述:光学字符识别(OCR):首先使用OCR技术从图像中提取文本信息。这些图像包括各种海报、标牌和场景文本。
多模态语言模型:使用多模态语言模型根据提取的文本信息生成详细的图像描述。这些描述不仅包含图像的视觉内容,还包含图像中各元素的关系和场景的语义信息。
通过这种方法,生成了数百万个图像-文本对,增强了数据集的多样性和真实性(Kolors_paper)。 概念学习阶段:数据收集:从多个公共和专有数据集中收集大规模的图像-文本对数据。这些数据集包括LAION、DataComp、JourneyDB等。
初步过滤:对收集的数据进行初步过滤,确保数据的基本质量,如分辨率、清晰度和文本匹配度。
广泛训练:使用这些大规模数据训练模型,使其能够学习到广泛的视觉概念和语义关系(Kolors_paper)。 质量提升阶段:高质量数据获取:对初步过滤后的数据进行更严格的筛选,选出数百万张高美学评分的图像。
人工标注:对这些高质量图像进行人工标注,确保每张图像的标签准确并且具有代表性。每张图像经过三次标注,通过投票决定最终标签(Kolors_paper)。
高分辨率训练:在这一阶段,模型专注于高分辨率图像的训练,采用新的调度策略,将训练步数从1000步扩展到1100步,以实现更低的终端信噪比,并调整β值以优化训练曲线(Kolors_paper)。
数据增强和优化:使用各种数据增强技术,如随机裁剪、旋转、颜色调整等,进一步增加数据的多样性。
在训练过程中,应用分辨率缩放技术,将每个batch分成两部分,使用不同的分辨率进行编码,然后再拼接,以提升评分和训练效率(Kolors_paper)。
结论
Kolors通过结合GLM和细粒度标题,展示了在处理复杂语义和生成高逼真度图像方面的卓越能力。双阶段训练策略和高美学数据的使用,显著提升了生成图像的视觉吸引力。Kolors在多项基准测试中表现优异,未来将继续推动文本生成图像领域的发展。