AgentBench排行榜25个主流LLM作为Agent的能力评估结果和重要结论

最终,清华大学评估了25个主流的LLM在上述8个任务上的表现来评估各大模型作为Agent的最终得分。结果如下:

从上面的评测结果,我们也可以看出几个非常重要的结论:

  1. 商业顶级模型(如GPT-4)展现出在复杂环境中完成代理任务的强大能力,它们能够理解指令并进行多轮交互。这显示了LLM作为代理的潜力。
  2. 但是,目前开源模型与商业模型之间还存在显著的差距,开源模型在AgentBench上普遍表现较弱。这提示开源LLM的代理能力仍有提升空间。
  3. 不同环境有不同的挑战,如操作系统和数据库考察编码能力,知识图谱需要复杂推理,网页浏览需要处理庞大inputs。不同模型之间也存在明显的优劣。
  4. 一些共性问题影响了当前模型的表现,如多轮一致性、动作有效性等。这些也是未来的研究方向。
  5. 代码训练确实能增强编程相关环境的表现,但可能以牺牲其他能力为代价。模型的训练方式需要针对目标任务进行优化。
  6. 国产模型中,ChatGLM2-6B的综合得分最高,也是开源模型最高得分,但也低于谷歌的模型(text-bison-001)
  7. 开源模型大多数综合得分不足1分,而GPT-4的得分则超过4分,达到4.41分!ChatGLM-6B第一代与BaiChuan-7B的表现都很差,

上述结论都是基于表的数据分析得到,例如,通过对两个规模相近的模型chatglm2和codegeex2-6b在AgentBench(agentbench.com.cn)上的表现,可以看出代码训练的价值。其中,codegeex2-6b经过代码训练,在操作系统和数据库两个编程相关环境上明显优于chatglm2。但在需要逻辑推理的横向思维难题上,codegeex2-6b的表现下降。

下图展示了几个模型的对比结果:

GPT-4几乎像全能战士一样,超越所有模型!

### LLM-Based Multi-Agent System 实现与应用 #### 大型语言模型多代理系统概述 LLM-based Multi-Agent System (LLM-MA) 是一种先进的AI架构,该架构融合了大语言模型多智能体系统的优点。此系统能够处理复杂的任务并支持多种应用场景,如科学辩论、自动GUI测试等[^1]。 #### 科学辩论场景的应用实例 在特定的任务中,比如科学辩论场景下,LLM-MA 中的智能体会互相交流观点以提升集体推理能力。这样的互动有助于提高大规模多任务语言理解(MMLU)、解决数学问题以及应对 StrategyQA 类挑战的能力[^3]。 #### 自动化GUI 测试案例研究 另一个实际例子来自 DroidAgent 项目,在该项目里开发了一个基于大型语言模型的自主 GUI 测试代理。这个代理能依据应用程序功能设定具体的目标并通过交互完成它们,进而增强了 Android 应用程序界面测试的效果范围[^2]。 #### 技术细节探讨 对于技术实现方面,考虑到不同类型的环境需求,例如捕食者与猎物模拟器或是协作通讯导航平台,研究人员设计了一套机制让所有参与节点可以在一定条件下发送受限长度的信息给其他成员。当涉及到 SchedNet 的性能评估时,则会对比几种不同的方法论来进行分析,包括但不限于 IDQN COMA 这样的无通信协议方案,还有像 DIAL 变种那样允许有限带宽内传递数据的技术路线[^4]。 ```python class Agent: def __init__(self, id, bandwidth_limit): self.id = id self.bandwidth_limit = bandwidth_limit def broadcast_message(self, message_content): if len(message_content) <= self.bandwidth_limit: print(f"Agent {self.id} broadcasts: {message_content}") else: raise ValueError("Message exceeds the allowed bandwidth limit.") def simulate_agents_communication(agents_list, environment_setup): for agent in agents_list: try: # Simulate broadcasting within given constraints of each agent's setup. agent.broadcast_message(environment_setup['test_message']) except Exception as e: print(e) # Example usage with two agents having different bandwidth limits. simulate_agents_communication([Agent(id=1, bandwidth_limit=50), Agent(id=2, bandwidth_limit=80)], {'test_message': 'This is a test.'}) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大禹智库

大禹智库——河南第一民间智库

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值