【LLM评估篇】Ceval | GAIA | MMLU benchmarks

note

  • 一些大模型的评估基准benchmark:
  • 多轮:MTBench
  • 关注评估:agent bench
  • 长文本评估:longbench,longeval
  • 工具调用评估:toolbench
  • 安全评估:cvalue,safetyprompt等

常见评测benchmark

在这里插入图片描述
图源自《A Survey on Evaluation of Large Language Models》

Agent相关的评测集

一、 GAIA

《GAIA: A Benchmark for General AI Assistants》是一个面向通用AI助手能力的基准评测体系。
1.组成:里面有466个精心设计的问题,其中分为三个级别,Lv.1、Lv.2、Lv.3。
(a) Level 1 :通常不需要工具,或者最多只需要一个工具,但不超过5个步骤

### 关于 Prompt、LLM 和 Memory 的概念及其关系 #### 1. **Prompt** Prompt 是指提供给大语言模型 (LLM) 的输入指令或问题,用于引导模型生成期望的输出。它可以是一个简单的句子、一个问题或者更复杂的结构化数据。Prompt 的设计质量直接影响到 LLM 输出的质量和准确性[^1]。例如,在生成一段关于人工智能的介绍时,可以使用这样的 Prompt:“请介绍一下人工智能的基本概念。”[^4] #### 2. **LLM (Large Language Model)** LLM 是一种基于深度学习技术构建的大规模语言模型,能够理解和生成自然语言文本。它的核心能力来源于大量的训练数据以及复杂的神经网络架构。LLM 能够通过分析历史数据形成所谓的“长期记忆”,即经过训练后的固定参数集合[^2]。 #### 3. **Memory (内存机制)** 在 LLM 中,“memory”通常分为两种形式:**长期记忆**与**短期记忆**。 - **长期记忆**: 来自模型本身的预训练阶段,存储的是从大量文本中学到的知识,这些知识被编码成固定的权重参数并保存下来。它们不会因为新的交互而发生改变。 - **短期记忆**: 当用户与 LLM 展开具体对话时所产生的动态信息流,则构成了短期记忆的一部分。这种类型的记忆允许 LLM 在当前会话期间保持一定的上下文连贯性,但是一旦完成某次具体的交流任务之后便会消失。 #### 它们之间的联系 - **Prompt 和 LLM:** 用户通过精心构造 Prompts 向 LLM 提供指导性的输入来获取所需的信息或创作内容;高质量的 Prompts 可以显著提升 LLM 表现效果。 - **LLM 和 Memory:** LLM 利用自己的长期记忆为基础理解世界,并借助短期记忆维护实时对话中的情境关联度。 - **Prompt 和 Memory:** 正确设置的 Prompts 不仅能激活 LLM 内部已有的长期记忆资源,还能有效利用短期记忆维持多轮对话的一致性和逻辑性。 ```python def generate_response(prompt, model): """ 使用指定的语言模型生成回复 参数: prompt (str): 输入提示符 model : 已加载好的大型语言模型实例 返回值: str: 模型返回的回答字符串 """ response = model.generate(text=prompt) return response ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山顶夕景

小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值