Holistic Evaluation of Language Models

UnknownBody

已于 2023-09-01 14:45:38 修改

阅读量794

点赞数

文章标签：语言模型人工智能自然语言处理

于 2023-09-01 13:48:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/132622409

版权

LLM 日更专栏收录该内容

515 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列文章，针对《Holistic Evaluation of Language Models》的翻译。

语言模型的整体评价

摘要
1 引言
2 前言
3 核心场景
4 一般指标
5 有针对性的评估
6 模型
7 通过提示进行调整
8 实验和结果
9 相关工作和讨论
10 缺失
11 不足和未来工作
12 结论

摘要

语言模型（LM）正在成为几乎所有主要语言技术的基础，但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价（HELM），以提高语言模型的透明度。首先，我们对LM感兴趣的潜在场景（即用例）和度量（即需求）的广阔空间进行分类。然后，我们根据覆盖率和可行性选择一个广泛的子集，注意缺失或代表性不足的部分（例如，被忽视的英语方言的问题回答、可信度指标）。其次，我们采用多指标方法：我们尽可能（87.5%的时间）为16个核心场景中的每一个测量7个指标（准确性、校准、稳健性、公平性、偏差、毒性和效率），确保超出准确性的指标不会半途而废，并确保模型和指标之间的权衡清楚地暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估，以更深入地分析特定方面（如知识、推理、记忆/版权、虚假信息）。第三，我们对所有42个场景中的30个突出语言模型（跨越开放、有限访问和封闭模型）进行了大规模评估，其中包括21个以前未在主流LM评估中使用的场景。在HELM之前，平均只有17.9%的核心HELM场景对模

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Holistic Evaluation of Language Models

语言模型（LM）正在成为几乎所有主要语言技术的基础，但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价（HELM），以提高语言模型的透明度。首先，我们对LM感兴趣的潜在场景（即用例）和度量（即需求）的广阔空间进行分类。然后，我们根据覆盖率和可行性选择一个广泛的子集，注意缺失或代表性不足的部分（例如，被忽视的英语方言的问题回答、可信度指标）。
复制链接

扫一扫

专栏目录

已下架不支持订阅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。