让 LLM 来评判 | 评估你的评估结果

最新推荐文章于 2025-05-06 22:12:40 发布

小马不会过河

最新推荐文章于 2025-05-06 22:12:40 发布

阅读量953

点赞数 8

文章标签： vscode ide 编辑器人工智能开源

本文链接：https://blog.csdn.net/m0_59163425/article/details/145597463

版权

在生产中或大规模使用 LLM 评估模型之前，你需要先评估它在目标任务的表现效果如何，确保它的评分跟期望的任务表现一致。

注：如果评估模型的输出结果是二元分类，那么评估会相对简单，因为可使用的解释性分类指标有很多 (如准确率、召回率和精确率)。但如果输出是在某个范围内的分数，评估起来就会困难一些，因为模型输出和参考答案的相关性指标很难与分数映射的非常准确。

在选定 LLM 评估模型以及设计 prompt 之后，还需要：

1. 选择基线

你需要将选定模型的评估结果与基线对比。基线可以是很多种类型，如: 人工标注结果、标准答案、其他表现良好评估模型的结果、其他 prompt 对应模型的输出，等等。

测试用例的数量不需要非常多 (50 个足矣)，但必须极具代表性 (例如边缘用例)、区分性、并且质量足够高。

2. 选择评估指标

评估指标是用来比较评估结果和参考标准之间的差距的。

通常来说，如果比较对象是模型的二元分类或成对比较属性，评估指标计算起来就非常容易，因为一般使用召回率 (二元分类)、准确率 (成对比较)、和精确率作为评估指标，这些指标容易理解、且具有可解释性。

如果比较对象是模型得分与人类评分，则计算指标就会困难一些。如要深入理解可以阅读这篇博客。

https://eugeneyan.com/writing/llm-evaluators/#key-considerations-before-adopting-an-llm-evaluator

总的来说，如果你不清楚如何选择合适的评估指标或者评估模型，可以参考这篇博客中的图表⭐。

博客链接https://eugeneyan.com/writing/llm-evaluators/
LLM 评估决策图https://eugeneyan.com/assets/llm-eval-tree.jpg

3. 评估你的评估结果

这一步你只需用评估模型和测试 prompt 来评估在样本上的表现，拿到评估结果之后使用上一步选定的评估指标计算分数即可。

你需要确定一个阈值来决定结果归属，阈值大小取决于你的任务难度。例如成对比较任务的准确率指标可以设为 80% 到 95%，再比如评分排名任务的相关性指标，文献中经常使用 0.8 的皮尔逊相关系数，不过也有一些论文认为 0.3 足以表明与人工评估的相关性良好。所以标准不是死的，根据任务灵活调整吧！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述