PPIO上线快手开源代码模型KAT-Dev-32B

今天,PPIO 上线 KAT-Dev-32B,这是由快手推出的全新开源代码模型。

在 SWE-Bench Verified 测试中, KAT-Dev-32B 解决率达到 62.4%, 在所有不同规模的开源模型中排名第五。

该模型支持 128K 上下文,价格为每百万输入 tokens 1 元、每百万输出 tokens 3 元。

现在,前往 PPIO 官网或点击文末阅读原文即可体验 KAT-Dev-32B 。新用户填写邀请码【LUUV7S】注册可得 15 元代金券。

快速入口:

https://ppio.com/llm/kwaipilot-kat-dev

开发者文档:

https://ppio.com/docs/model/overview

# 01 模型创新点

KAT-Dev-32B 通过多个阶段的训练进行优化,包括中期训练阶段(Mid-Training)、监督微调(SFT)和强化微调(RFT)阶段以及大规模代理强化学习(Agentic RL Scaling)阶段。

中期训练:在当前阶段(例如在SWE-bench等排行榜上)增加工具使用能力、多轮交互和指令遵循的广泛训练可能不会带来显著的性能提升。但由于实验基于 Qwen3-32B 模型,团队发现增强这些基础能力将对后续的SFT和RL阶段产生重要影响。这表明提升此类核心能力能够深刻影响模型处理更复杂任务的能力。

SFT & RFT:精心设计了八种任务类型和八种编程场景,以确保模型的泛化能力和综合性能。此外,在RL 阶段之前,创新性地引入了RFT阶段。与传统RL相比,在训练中融入了由工程师标注的"教师轨迹"作为指导——正如新手驾驶员在正式上路前需要教练陪同练习。这一步骤不仅提升了模型性能,还进一步稳定了后续的RL训练。

Agentic RL 扩展:扩展智能强化学习主要面临三大挑战:在非线性轨迹历史上实现高效学习、利用模型内在信号,以及构建可扩展的高吞吐量基础设施。通过 RL 训练引擎中的多级前缀缓存机制、基于熵的轨迹剪枝技术,以及内部实现的 SeamlessFlow 架构来解决这些挑战——该架构在充分利用异构计算资源的同时,实现了智能体与训练的清晰解耦。这些创新共同降低了扩展成本,实现了高效的大规模强化学习。

以下是模型在 SWE-Bench Verified 的性能变化:

02 在线体验KAT-Dev-32B

KAT-Dev-32B 的具体表现如何?

提示词:

你是前端工程师。请用单文件写一个反应力测试网页(仅用原生 HTML/CSS/JS,不引第三方库,不联网)。规则:

1、初始显示“点击开始”;点击后进入等待状态,随机 800–2000ms 后背景变绿;

2、变绿后用户点击,显示这次反应时间(ms);重复 3 次,显示平均值;

3、设计要美观:居中卡片、柔和配色、微动效(过渡/阴影/按钮态);

4、适配手机(375px)和桌面(1440px);

5、交互有防误触:变绿前点击判为“太早了”;

6、代码整洁,≤200 行(不含空行),含少量注释。

直接给出完整单文件 HTML。

生成效果:

代理重构任务:

你可以到 PPIO 官网在线体验 KAT-Dev-32B ,或者将模型 API 接入 Cherry Studio、ChatBox 或者你自己的 AI 工作流中。

查看详细接入教程:

https://ppio.com/docs/model/overview

KAT-Dev-32B 通过可扩展的 Agentic RL推进代码智能。因此,最后送一份福利:PPIO 整理了 20 余篇 Agent 相关的报告资料,可扫下图二维码下载,以及加入社群交流。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值