介绍
AutoGLM:接收文字/语音指令,模拟人类操作手机。比如:
(1)微信上给xx的朋友圈点赞并评论
(2)在12306上购买火车票
项目地址:https://xiao9905.github.io/AutoGLM
技术
1、基础智能体 解耦合 中间界面
一步变两步(规划器 + 执行器):解决 动作执行 不够精确的问题
2、自进化 在线课程 强化学习框架
以web浏览器作为实验环境、引入自进化学习策略,模型不断 自我考察、鞭策、提升。
通过 课程强化学习方法, 该框架根据 智能体当前迭代轮次的能力水平, 动态调整学习的任务难度,以最大程度利用模型潜能。
通过KL散度控制的策略更新以及智能体 置信度经验回放, 减轻迭代训练中 出现模型遗忘先前学习任务的问题。
训练得到开源版 GLM-4-9B, 在WebArena-Lite 评测基准,达到总体43%的 任务成功率。
AndroidLab评测基准上,36.2% 的 success rate