国产可图大模型厚积薄发,GLM3加持质的飞跃,ComfyUI最全指南与SD3综合评比孰更强？

AI绘画月月

于 2025-04-12 11:35:01 发布

阅读量613

点赞数 22

文章标签：人工智能 SD stable diffusion AI作画 AI绘画

本文链接：https://blog.csdn.net/2401_84760719/article/details/147162314

版权

Kolors大模型简

就在上周末，国内大厂快手开源了可图大模型文生图模型，这是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。

• Kolors 是在数10亿图文对下进行训练 ，
• 在 视觉质量 、复杂语义理解 、文字生成（中英文字符） 等方面，相比于当前业界开源/闭源模型，都展示出了巨大的优势。特别是在中文文字生成方面 领先于当前所有业界模型。
• Kolors 支持中英双语 ，在中文特色内容理解 方面更具竞争力。

研发团队构建了一个包含14种垂类，12个挑战项，总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts
上，并且收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。

人工评测

研发团队邀请了50个业界领域专家对生成图像打分，评估维度包括：画面质量、图文相关性、整体满意度三个方面。结果表明：Kolors
在整体满意度方面处于最优水平，其中画面质量显著领先其他模型 。

机器评测

研发团队采用 MPS(Multi-dimensional Human preference Score) 来模型评估。结果表明：Kolors
实现了最高的MPS 指标，这以结果与人工评估的指标一致。

官方演示

高质量人像

中国元素

复杂语义理解

文字渲染能力

Kolors大模型ComfyUI安装

当前快手已经提供了在线的Kolors文生图服务可使用，不想本地部署的同学可以使用在线服务体验：https://klingai.kuaishou.com/。

（需要Kolors大模型ComfyUI安装包的同学文末可自行扫描获取）

模型安装

如果需要本地部署，则使用社区的ComfyUI-KwaiKolorsWrapper 插件实现。

• 首先需要更新ComfyUI 到最新版本，然后通过ComfyUI插件管理器安装ComfyUI-KwaiKolorsWrapper 。插件地址为：https://github.com/kijai/ComfyUI-KwaiKolorsWrapper。
• 下载ChatGLM3 量化模型，并放置在本地目录ComfyUI/models/LLM/checkpoints 。模型地址为：https://hf-mirror.com/Kijai/ChatGLM3-safetensors/tree/main 。这里提供了3种量化权重文件，根据本地显存选择合适模型权重。对于小显存建议直接chatglm3-4bit.safetensors 。
• 下载Kolors模型，本模型会在首次运行时自动下载（切记科学！！！ ），并放置在ComfyUI/models/diffusers/Kolors 目录下。模型地址为：https://hf-mirror.com/Kwai-Kolors/Kolors/tree/main。
• 加载文末工作流文件 ，然后重启ComfyUI ，即可开始体验。

本地模型结构为：

/ComfyUI/models/LLM/checkpoints  
│   chatglm3-4bit.safetensors  // 4bit、8bit、fb16中选择一个版本  
/ComfyUI/models/diffusers/Kolors  
│   model_index.json  
│  
├───scheduler  
│       scheduler_config.json  
│  
├───text_encoder  
│       config.json  
│       pytorch_model-00001-of-00007.bin  
│       pytorch_model-00002-of-00007.bin  
│       pytorch_model-00003-of-00007.bin  
│       pytorch_model-00004-of-00007.bin  
│       pytorch_model-00005-of-00007.bin  
│       pytorch_model-00006-of-00007.bin  
│       pytorch_model-00007-of-00007.bin  
│       pytorch_model.bin.index.json  
│       tokenizer.model  
│       tokenizer_config.json  
│       vocab.txt  
│  
└───unet  
        config.json  
        diffusion_pytorch_model.fp16.safetensors


![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fcsdnimg.cn%2Frelease%2Fblogv2%2Fdist%2Fpc%2Fimg%2FnewCodeMoreWhite.png&pos_id=img-3QiRyglW-1739177199828)

  * 1
  * 2
  * 3
  * 4
  * 5
  * 6
  * 7
  * 8
  * 9
  * 10
  * 11
  * 12
  * 13
  * 14
  * 15
  * 16
  * 17
  * 18
  * 19
  * 20
  * 21
  * 22
  * 23
  * 24
  * 25

不同量化模型对应的显存要求如下所示：

文生图工作流

图生图工作流

Kolors与SD3工作流

Kolors和SD3评比体验

01：中文提示语

因为SD3输入提示语理解主要为英文，但Kolors是支持直接中文和英文双语提示 的。SD3并没有收据木牌。

1个中国女孩，手举这木牌，木牌上写着文字“我爱你中华”。身穿中国古风旗袍，淡黄色旗袍，18岁女孩，年轻美貌

SD3效果：

Kolors效果：

02：中文渲染

Kolors中文渲染能力胜出。提示这里也能看出SD3手部问题明显大于 Kolors。但都未很好的解决。笔者抽卡中感觉Kolors
会更容易一些，因为巧妙的藏起来了，特别在后续多人场景更明显。

A Chinese girl holds up a wooden sign with the chinese words “我爱你中华” written
on it. Dressed in ancient Chinese style cheongsam, light yellow cheongsam,

SD3效果：