清华大学 THUNLP 实验室与面壁智能联合推出全球首个针对中文 APP 优化的开源 GUI Agent——AgentCPM-GUI,为安卓生态智能化带来全新突破。
技术层面,AgentCPM-GUI 基于 80 亿参数量的 MiniCPM-V 模型搭建,以手机屏幕图像为输入,精准识别界面元素并执行用户指令。与通用 Agent 不同,它深度适配高德地图、大众点评、哔哩哔哩等 30 余个主流中文应用,在实际演示中,能快速完成如检查 B 站 UP 主更新等复杂操作,精准流畅。
在效率上,通过先进的模型压缩技术,AgentCPM-GUI 将平均动作长度降至 9.7 个 Token,在普通安卓设备也能快速响应,运行体验接近原生应用,极大降低了硬件使用门槛。
该项目秉持普惠理念完全开源,开发者可自由获取代码与文档进行二次开发,不仅填补了中文 GUI Agent 领域的空白,还大幅降低中文 APP 智能化交互的开发成本,吸引中小企业共同构建智能生态。
从导航规划路线、社交平台提取信息,到生活服务一键预订,AgentCPM-GUI 在多场景实现语音指令智能操作。其发布不仅是国产 AI 技术研发的里程碑,更凭借对中文应用的深度适配,展现了中国 AI 企业在本地化场景中的核心竞争力。