PPIO上线快手开源代码模型KAT-Dev-32B

原创于 2025-09-29 09:32:35 发布 · 526 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

今天，PPIO 上线 KAT-Dev-32B，这是由快手推出的全新开源代码模型。

在 SWE-Bench Verified 测试中， KAT-Dev-32B 解决率达到 62.4%，在所有不同规模的开源模型中排名第五。

该模型支持 128K 上下文，价格为每百万输入 tokens 1 元、每百万输出 tokens 3 元。

现在，前往 PPIO 官网或点击文末阅读原文即可体验 KAT-Dev-32B 。新用户填写邀请码【LUUV7S】注册可得 15 元代金券。

快速入口：

https://ppio.com/llm/kwaipilot-kat-dev

开发者文档：

https://ppio.com/docs/model/overview

# 01 模型创新点

KAT-Dev-32B 通过多个阶段的训练进行优化，包括中期训练阶段（Mid-Training）、监督微调（SFT）和强化微调（RFT）阶段以及大规模代理强化学习（Agentic RL Scaling）阶段。

中期训练：在当前阶段（例如在SWE-bench等排行榜上）增加工具使用能力、多轮交互和指令遵循的广泛训练可能不会带来显著的性能提升。但由于实验基于 Qwen3-32B 模型，团队发现增强这些基础能力将对后续的SFT和RL阶段产生重要影响。这表明提升此类核心能力能够深刻影响模型处理更复杂任务的能力。

SFT & RFT：精心设计了八种任务类型和八种编程场景，以确保模型的泛化能力和综合性能。此外，在RL 阶段之前，创新性地引入了RFT阶段。与传统RL相比，在训练中融入了由工程师标注的"教师轨迹"作为指导——正如新手驾驶员在正式上路前需要教练陪同练习。这一步骤不仅提升了模型性能，还进一步稳定了后续的RL训练。

Agentic RL 扩展：扩展智能强化学习主要面临三大挑战：在非线性轨迹历史上实现高效学习、利用模型内在信号，以及构建可扩展的高吞吐量基础设施。通过 RL 训练引擎中的多级前缀缓存机制、基于熵的轨迹剪枝技术，以及内部实现的 SeamlessFlow 架构来解决这些挑战——该架构在充分利用异构计算资源的同时，实现了智能体与训练的清晰解耦。这些创新共同降低了扩展成本，实现了高效的大规模强化学习。