评估大语言模型是否可信の七大维度

提出 7 个主要关键维度来全面评估 LLM 可信度。

实际部署中,如何 “对齐”(alignment)大型语言模型(LLM,Large Language Model),即让模型行为与人类意图相一致 [2,3] 已成为关键任务。例如,OpenAI 在 GPT-4 发布之前,花了六个月时间进行对齐 [1]。然而,从业者面临的挑战是缺乏明确指导去评估 LLM 的输出是否符合社会规范、价值观和法规;这阻碍了 LLM 的迭代和部署。

为解决此问题,ByteDance Research 团队的刘扬等研究者提供了一个在关于评估 LLM 可信度时需要考虑的关键维度的全面调查。调查涵盖了 LLM 可信度的 7 个主要类别:可靠性(Reliability)、安全性(Safety)、公平性(Fairness)、抵抗滥用(Resistance to Misuse)、解释性和推理(Explainability & Reasoning)、遵循社会规范(Social Norm)和稳健性(Robustness)。

每个主要类别进一步细分为多个子类别,共 29 个子类别。此外,研究者选择了 8 个子类别进行相应的评测研究。评测结果表明,总体上,对齐度更高的模型在整体可信度方面表现得更好。然而,对齐的有效性在不同维度中表现不同。这说明需要对 LLM 对齐进行更细致的分析、测试和改进。本文旨在通过归纳可信任 LLM 的关键维度,为该领域的实践者提供有价值的见解和指导,这对了解如何在各应用中可靠合理地部署 LLM 至关重要。

论文地址:https://arxiv.org/abs/2308.05374

大语言模型对齐分类法

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值