评估大语言模型是否可信の七大维度-CSDN博客

本文链接：https://blog.csdn.net/qq_29788741/article/details/133500891

提出 7 个主要关键维度来全面评估 LLM 可信度。

实际部署中，如何 “对齐”（alignment）大型语言模型（LLM，Large Language Model），即让模型行为与人类意图相一致 [2,3] 已成为关键任务。例如，OpenAI 在 GPT-4 发布之前，花了六个月时间进行对齐 [1]。然而，从业者面临的挑战是缺乏明确指导去评估 LLM 的输出是否符合社会规范、价值观和法规；这阻碍了 LLM 的迭代和部署。

为解决此问题，ByteDance Research 团队的刘扬等研究者提供了一个在关于评估 LLM 可信度时需要考虑的关键维度的全面调查。调查涵盖了 LLM 可信度的 7 个主要类别：可靠性（Reliability)、安全性（Safety）、公平性（Fairness）、抵抗滥用（Resistance to Misuse）、解释性和推理（Explainability & Reasoning）、遵循社会规范（Social Norm）和稳健性（Robustness）。

每个主要类别进一步细分为多个子类别，共 29 个子类别。此外，研究者选择了 8 个子类别进行相应的评测研究。评测结果表明，总体上，对齐度更高的模型在整体可信度方面表现得更好。然而，对齐的有效性在不同维度中表现不同。这说明需要对 LLM 对齐进行更细致的分析、测试和改进。本文旨在通过归纳可信任 LLM 的关键维度，为该领域的实践者提供有价值的见解和指导，这对了解如何在各应用中可靠合理地部署 LLM 至关重要。

论文地址：https://arxiv.org/abs/2308.05374

大语言模型对齐分类法