LLMEval: A Preliminary Study on How to Evaluate Large Language Models

515 篇文章 3 订阅

已下架不支持订阅

本文深入探讨了如何评估大型语言模型(LLM),重点关注评估标准、环境和方法。研究发现,信息性和准确性是关键评估因素,现场星级评分在手动评估中效果最佳,而自动化评估在覆盖大量任务时具有优势。尽管如此,主观问题的评估仍存在挑战。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《LLMEval: A Preliminary Study on How to Evaluate Large Language Models》的翻译。

LLMEval:大型语言模型评价初探

摘要

近年来,大型语言模型的评价已成为一个热门的研究领域。LLM评估的三个关键问题是“评估什么、在哪里以及如何评估”。然而,现有的研究主要集中在前两个问题上,基本上是在测试过程中给LLM什么任务,以及它应该处理什么样的知识。至于第三个问题,即使用什么标准、评估者的类型、如何评分和如何排名,还没有太多讨论。在本文中,我们通过比较手动和自动评估的各种标准,利用现场、众包、公共注释器和GPT4,以及不同的评分方法和排名系统,分析了评估方法。我们提出了一个新的数据集LLMEval,并对20个LLM进行了评估。共有2186人参与,生成了243337个手动注释和57511个自动评估结果。我们对不同的环境进行了比较和分析,得出了10个结论,这些结论可以为未来评估LLM提供一些见解。数据集和结果在https://github.com/llmeval上可用.

1 引言

2 设计

3 实验

4 结果

<
  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值