19-8 LLM之野望 8 -LLM 评估

最新推荐文章于 2024-09-30 13:49:56 发布

拉达曼迪斯II

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量962

点赞数 35

分类专栏： AIGC学习 AI创业文章标签：人工智能数据库网络搜索引擎 AIGC

本文链接：https://blog.csdn.net/ms44/article/details/140549069

版权

AI创业同时被 2 个专栏收录

297 篇文章 0 订阅

订阅专栏

AIGC学习

295 篇文章 0 订阅

订阅专栏

在过去的一年里，我一直在致力于构建由大型语言模型 (LLM) 驱动的应用程序，此外还与几家领先的 LLM/AI 公司的一些聪明人进行了广泛的交流。通过这些讨论，我发现一个常见的痛点是缺乏针对模型和应用程序级 LLM 系统的易于插入的评估。具体来说，人们经常对各种各样的 LLM 评估基准感到困惑，以及何时使用机器反馈、人工反馈或两者结合。

在这里，我旨在分享一些我遇到过的有关 LLM Evals 的最有用的读物。

关于我的背景：我曾担任专注于开发 AI/ML 驱动的应用程序的 PM/部分创始人，之前曾在 AWS AI 工作过。

什么是评估？

评估，通常缩写为“Evals”，是对 LLM 及其申请表现的系统评估和衡量。评估是一系列精心设计的测试和指标，用于判断您的申请是否“可用于生产”。

Eva 是提供深入洞察您的应用如何与用户输入和真实数据交互的重要工具。对您的应用进行稳健评估意味着确保它不仅符合技术规范，而且符合用户期望并在实际场景中证明其价值。

什么才是好的评估？

好的评价是——

涵盖你的大语言模型申请的最重要成果
最好有少量可解释的指标
快速、自动计算
在多样化和有代表性的数据集上进行测试
与人类判断高度相关

更好的数据，更好的指标 -> 更好的评估 —来源

传统评估指标

在 NLP 中，传统指标在塑造我们对语言模型及其功能的理解方面发挥了关键作用。从准确率和召回率到 BLEU 和 ROUGE 分数，这些指标提供了一种定量评估各种模型和算法性能的方法。它们在对进展进行基准测试、比较不同方法以及为未来的研究和开发设定方向方面发挥了至关重要的作用。

NLP 指标的引入时间线及其最初的应用 —来源

然而，随着语言模型（尤其是 LLM）的复杂性不断增加，传统指标的局限性变得越来越明显。这种转变要求我们重新评估衡量 NLP 成功和有效性的方法，从而探索能够跟上该领域进步步伐的更精细的指标。

传统指标的局限性

以 BLEU（双语评估测试）分数为例，这是机器翻译中常用的指标。BLEU 通过将翻译文本与一组高质量的参考翻译进行比较来评估翻译文本的质量。然而，它的重点主要放在单词匹配的准确性上，往往忽略了上下文和语义。

因此，译文可能因为单词顺序在技术上正确而获得高 BLEU 分数，但仍无法准确传达原文的正确语气、风格，甚至含义。

仅使用具有相似含义的不同单词，BLEU 文本相似度就会大幅下降 —来源

评估的演变：大语言模型辅助评估的兴起⚖️

这种创新方法标志着评估方法的重大转变，反映了一种更广泛的趋势：我们为理解人类语言而开发的工具也正在成为评估自身的基准。随着这些语言模型的进步，指标从非传统演变为我们现在所说的 LLM 辅助评估。

来源：关于评估大语言模型的所有信息

在当今现代 LLM 时代，同样的原则也适用，但规模更为复杂。研究人员现在正在使用 GPT-4 等 LLM 来评估类似模型的输出。这种对 LLM 进行评估的递归使用凸显了该领域的持续改进和完善。通过使用 LLM 作为评估的主题和工具，我们可以解锁更深层次的自省和优化。

推广此方法的一些最具影响力的论文包括：

GPTScore：一种新颖的评估框架，利用生成预训练模型的零样本能力对文本进行评分。突出了该框架在评估各种文本生成任务方面的灵活性，无需大量训练或手动注释。
LLM-Eval：一种使用单个 LLM 提示评估对话质量多个维度的方法。提供了一种多功能且强大的解决方案，在不同数据集上显示出与人类判断的高度相关性。
LLM-as-a-judge：探索使用 LLM 作为人类评估的替代品，利用模型与人类偏好的一致性。证明像 GPT-4 这样的 LLM 法官可以实现与人类评估超过 80% 的一致率，提出了一种可扩展且有效的近似人类判断的方法。

人类和 GPT-4 评委在正确性和可读性分数上的一致性可以达到 80% 以上。如果要求小于或等于 1 分差异，一致性水平可以达到 95% 以上 —来源

大语言模型辅助评估的局限性

虽然 LLM 辅助评估代表了 NLP 领域的重大飞跃，但并非没有缺点。认识到这些局限性是确保评估准确且有意义的关键。

应用特定：一个主要限制因素是 LLM 驱动的评估者会生成应用特定指标。LLM 在一种情况下给出的数字分数不一定等于另一种情况下的相同值，这阻碍了不同项目之间指标的标准化。
立场偏见：根据一项研究，LLM 评估人员经常表现出立场偏见，在比较两个结果时更倾向于第一个结果。这可能会使评估偏向于更早出现的答案，而不管其实际质量如何。
冗长偏见：大语言模型也倾向于较长的回答。这种冗长偏见意味着，与简洁直接的回答相比，更冗长、可能不太清晰的回答可能更受青睐。
自我亲和力偏差：LLM 可能更喜欢其他 LLM 生成的答案，而不是人类撰写的文本，这可能会导致对机器生成内容的评价出现偏差。
随机性： LLM 固有的模糊性意味着，当单独调用时，它们可能会为相同的输出分配不同的分数，从而给评估增加了不可预测性。

为了减轻这些偏见并提高 LLM 评估的可靠性，可以采用以下几种策略：

位置交换：为了抵消位置偏差，在评估中交换参考和结果可确保被评估的结果处于第一个位置。
少量提示：在评估任务中引入一些示例或提示可以校准评估者并减少冗长偏见等偏见。
混合评估：为了实现更扎实的评估，将 LLM 评估与人工判断或先进的非传统指标相结合可能非常有效。这种组合方法提供了一个全面的评估框架，平衡了 LLM 的创新能力和非传统指标的可靠性。