大模型评测与应用-基础评测、高级评测、综合评测

原创已于 2025-01-21 17:35:19 修改 · 432 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大模型 #人工智能

于 2025-01-16 17:42:35 首次发布

大模型专栏收录该内容

33 篇文章

订阅专栏

一、基础能力评测

1、能力评测汇总

在这里插入图片描述

2、基础能力评测三个维度

语言生成能力
知识利用能力
复杂推理能力

3、语言生成能力评测

主要问题
- 不可靠的文本评估
  - 自动评估存在不全面问题
  - 人工评估存在可靠性问题
- 特定专业领域生成能力偏弱
  - 使用特定领域训练大模型会导致模型在其他领域性能下降

4、知识利用能力评测

知识利用任务类型
- 闭卷问答（基于模型自身知识）
- 开卷问答（基于自身以及外部知识）
- 知识补全
存在问题
- 幻象：大模型生成内容与提示内容关联度差，通过微调对齐可以一定程度上改善
- 知识时效性：通过外部知识补充是一种方式，但是无法实时更新模型内部参数，最终生成内容质量相较使用模型内部知识生成较差

5、复杂推理能力评测

分类
- 知识推理
- 数学推理
主要问题
- 推理一致性差：多次推理结果可能不一致
- 数值计算：不依赖外部计算器能力情况下，数值计算效果差

二、高级能力评测

人类对齐
环境交互
工具使用

1、人类对齐

有用性：评价模型根据人类需求完成特定任务的能力，例如知识问答、代码合成、文本
写作等
诚实性：从事实性、前后一致性等维度、幻象
无害性：是检测大语言模型所生成的文本中是否存在偏见、歧视等有害因素

2、环境交互

检验行动计划的可行性和准确性
通过实际任务的执行成功率来衡量模型与环境的交互能力

3、工具使用

搜索工具评测
模型工具评测
综合工具评测

三、综合评测（主流LLM及评测数据集）

在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。