基于大模型的Agent进行测试评估的3种方案

最新推荐文章于 2025-04-27 11:29:12 发布

AI大模型优化师

最新推荐文章于 2025-04-27 11:29:12 发布

阅读量1.6k

点赞数 28

文章标签：人工智能 transformer 深度学习面试职场和发展

本文链接：https://blog.csdn.net/2401_85325557/article/details/140006875

版权

我的新书[《LangChain编程从入门到实践》]已经开售！推荐正在学习AI应用开发的朋友购买阅读，本书围绕 LangChain 梳理了AI时代开发范式的转变，除了LangChain，还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架。

我们都知道当前基于大模型构建的 Agent 能力极不稳定，而今年我司产品又在规划接入 Agent 能力，所以在引入之前，需要先设计一套测试框架，来看看各种场景下容错率是否能达到目标阈值，所以我调研了几种测试方案，本篇来总结下。

AgentBeach

AgentBeach框架转存失败，建议直接上传图片文件

首先来看 AgentBeach，由来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计的一个测试工具，AgentBench 包括 8 个环境：

操作系统（OS）：测试 LLM 在 bash 环境中执行文件操作和用户管理等任务的能力。
数据库操作（DB）：评估 LLM 使用 SQL 对指定数据库执行操作的能力。
知识图谱（KG）：检验 LLM 利用工具从知识图谱中提取复杂信息的能力。
卡牌对战（DCG）：考察 LLM 作为玩家，依据规则和当前状态进行卡牌对战策略决策的能力。
情景猜谜（LTP）：在这个游戏中，LLM 需要针对谜题提出问题，以猜测答案，这能够测试 LLM 的横向思维能力。
居家场景（HH）：在模拟的家庭环境中，LLM 需要完成一些日常任务，主要测试 LLM 将复杂高级目标分解为一系列简单动作的能力。
网络购物（WS）：在模拟的在线购物场景中，LLM 需要根据需求完成购物任务，主要评估 LLM 的自主推理和决策能力。
网页浏览（WB）：在模拟的网页环境中，LLM 需要根据指令完成跨网站的复杂任务，考察 LLM 作为网络代理的能力。

这些评测可以帮助了解和验证基于大模型的 Agent 在不同环境和任务中的表现，其中操作系统和数据库操作属于初阶能力测试，这类场景的特点是操作环境简单，信息纯净；知识图谱和卡牌对战属于进阶能力测试，这类场景的特点是操作环境简单，但信息相对复杂；情景猜谜，居家场景，网络购物，网页浏览这一类场景操作环境相对复杂，信息也相对复杂，是对 Agent 的高阶能力测试。

具体到企业级 Agent 场景，倒不必必须按照上述环境来区分，但需要对自己的需求场景按照容错率低，中，高进行区分，制订相应的通过率指标，进行测试后，决定是否采用乙方 Agent 服务。

AgentBeach 数据集、环境和集成评估包发布地址

ToolEmu

ToolEmu组成

ToolEmu 主要是对基于大模型 Agent 的安全测试，ToolEmu 设计了一个仿真框架，通过模拟多样化的工具集，检测 LLM-Base Agent 在各种场景下的表现，旨在自动化地发现真实世界中的故障场景，为 Agent 执行提供了一个高效的沙盒环境。ToolEmu 包括一个对抗性仿真器，专门用于模拟可能导致大模型代理故障的情景，从而让开发者更好地理解并改善代理的弱点，这种方式可以有效地识别真实世界中潜在的严重故障。此外还有自动安全评估器，通过分析代理执行过程中的潜在危险操作，来量化风险的严重性。

类 Agent 产品要集成到产品，在安全性方面可以参考这个项目进行测试。

项目官网

Agent 执行轨迹评估

如果说 AgentBeach 是对基于大模型的 Agent 通用能力测试，则 Agent 执行轨迹评估（Agent Trajectory Evaluation）通过观察基于大模型的 Agent 在执行任务过程中所采取的一系列动作及其响应，来全面评价 Agent 的表现。这种方法用于评估 Agent 在解决问题时的逻辑和效率，以及它是否选择了正确的工具和步骤来完成任务。

代理执行轨迹评估的作用在于：

全面性：它不仅考虑最终结果，还关注过程中的每一步，从而提供更全面的评估。
逻辑性：通过分析代理的“思考链”，可以了解其决策过程是否合理。
效率性：评估代理是否采取了最少的步骤来完成任务，避免不必要的复杂性。
正确性：确保代理使用了合适的工具来解决问题。

下面是 LangChain 中代理执行轨迹评估的代码示例：

python复制代码# 导入LangChain的评估器模块
from langchain.evaluation import load_evaluator

# 加载轨迹评估器
evaluator = load_evaluator("trajectory")

# 设置代理的输入，例如用户询问的问题
input = "莫尔索个人网站（https://liduos.com）的延迟情况如何？"

# 代理的最终预测响应，这里应该是代理给出的答案
prediction = "代理的预测响应"  # 需要替换为实际的预测结果

# 代理的行为轨迹，记录了代理在处理问题时的每一步操作
agent_trajectory = [
    # 这里应该是代理在处理问题时的中间步骤，例如使用的函数和参数
    # 例如：('使用ping工具', 'https://liduos.com')
]

# 使用评估器对代理的行为轨迹进行评估
evaluation_result = evaluator.evaluate_agent_trajectory(
    input=input,
    prediction=prediction,
    agent_trajectory=agent_trajectory
)

# 打印评估结果，包括评分和推理链
print(evaluation_result)

FireAct架构概览

此外，对 Agent 轨迹跟踪的思路还有一个妙用，就是微调出侧重于特定垂直场景 Agent 任务的模型，这种思路对应的技术叫FireAct（公众号后台回复FireAct，获取相应代码、数据和模型，快手的KwaiAgents也是类似的路子），它使用 GPT-4 生成的 500 个 Agent 操作轨迹来微调 Llama2-7B 模型，使其在 HotpotQA 任务上的表现提高了 77%，Midreal AI（一款小说生成产品，可以生成真正的小说，逻辑性和创造力都在线，而且还加入了互动能力，每到关键节点会让你选择剧情走向，还会生成一张配图。）也是用了 FireAct 的技术。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的zi yuan得到学习提升
😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些P DF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.2.1 什么是Prompt
- L2.2.2 Prompt框架应用现状
- L2.2.3 基于GPTAS的Prompt框架
- L2.2.4 Prompt框架与Thought
- L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
- L2.3.1 流水线工程的概念
- L2.3.2 流水线工程的优点
- L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.1.1 Agent模型框架的设计理念
- L3.1.2 Agent模型框架的核心组件
- L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
- L3.2.1 MetaGPT的基本概念
- L3.2.2 MetaGPT的工作原理
- L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
- L3.3.1 ChatGLM的特点
- L3.3.2 ChatGLM的开发环境
- L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
- L3.4.1 LLAMA的特点
- L3.4.2 LLAMA的开发环境
- L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍