评估大型语言模型：综述

be_humble

已于 2023-11-06 15:53:25 修改

阅读量662

点赞数

文章标签：语言模型人工智能自然语言处理

于 2023-11-06 15:52:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/be_humble/article/details/134248243

版权

论文地址：https://arxiv.org/pdf/2310.19736v2.pdf

github： tjunlp-lab/awesome-llms-evaluation-…

发表团队：Tianjin University

摘要

将LLM评估划分三点：知识和能力评估、一致性评估和安全性评估。
特定领域化评估
benchmark
评估机构
评估数据集

目标

知识和能力评估、一致性评估和安全性评估。除了对这三个方面的评估方法和基准进行全面梳理外，我们还整理了LLM在专业领域的评估概要，并讨论了涵盖LLM能力、一致性、安全性评估的综合评估平台的构建和适用性。

背景

大型语言模型 (LLM) 在广泛的任务中表现出了卓越的能力。它们引起了极大的关注并被部署在众多下游应用中。然而，就像一把双刃剑一样，法学硕士也存在潜在的风险。它们可能会遭受私人数据泄露或产生不适当、有害或误导性内容。此外，法学硕士的快速进步引发了人们对在没有足够保障的情况下可能出现的超级智能系统的担忧。为了有效发挥法学硕士能力并确保其安全、有益的发展，对法学硕士进行严格、全面的评估至关重要。这项调查致力于为法学硕士的评估提供一个全景视角。

方法

知识和能力评估
1. QA
2. 知识填空
3. 推理
  1. 常识
  2. 逻辑
  3. 多跳
  4. 数学
4. 工具使用
一致性评估
1. 伦理道德
2. 偏见
3. 毒性
安全性评估
1. 鲁棒性评估
  1. Prompt
  2. Task 任务
  3. 一致性
2. 风险评估
  1. 行为风险
  2. Agent 评估
领域化评估、
1. 生物&医学
2. 教育
3. 法考
4. 计算机
5. 金融

结论

LLM的发展速度令人震惊，在众多任务上取得了显着进展。然而，尽管迎来了人工智能的新时代，我们对这种新颖的智能形式的理解仍然相对有限。

划定这些LLM的能力界限、了解他们在各个领域的表现并探索如何更有效地发挥他们的潜力至关重要。这就需要一个全面的基准框架来指导法学硕士的发展方向。这项调查系统地阐述了LLM的核心能力，包括知识和推理等关键方面。此外，我们深入研究一致性评估和安全性评估，包括道德问题、偏见、毒性和真实性，以确保LLM的安全、可信和道德应用。

同时，我们探索LLM在不同领域的潜在应用，包括生物学、教育、法律、计算机科学和金融。最重要的是，我们提供一系列流行的基准评估，以帮助研究人员、开发人员和从业者理解和评估法学硕士的表现。

我们预计这项调查将推动LLM评估的发展，为引导这些模型的可控发展提供明确的指导。这将使LLM能够更好地为社区和世界服务，确保他们在各个领域的应用程序安全、可靠和有益。我们怀着热切的期待，迎接LLM发展和评估的未来挑战。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
评估大型语言模型：综述

大模型评估，综述，论文笔记
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。