TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs

515 篇文章 3 订阅

已下架不支持订阅

本文介绍了一个评估大型语言模型(LLM)与人类偏好一致性的框架——TencentLLMEval。该框架包括一个覆盖7个领域、200多个类别和800多个任务的分层任务树,用于全面评估LLM在问答、推理等任务中的能力。通过详细的标准和流程,确保了评估的一致性和公正性。此框架已应用于腾讯的混元助手,并提供了标准化的评估方法,以推动安全、符合人类需求的LLM发展。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs》的翻译。

TencentLLMEval:现实世界能力的层次评估适用于符合人类要求的LLM

摘要

大型语言模型(LLM)在各种自然语言任务中表现出了令人印象深刻的能力。然而,评估它们与人类偏好的一致性仍然是一个挑战。为此,我们提出了一个全面的人类评估框架,以评估LLM在不同现实世界任务中遵循指示的熟练程度。我们构建了一个包含7个主要领域的分层任务树,涵盖200多个类别和800多个任务,涵盖了问答、推理、多回合对话和文本生成等多种能力,以全面深入地评估LLM。我们还设计了详细的评估标准和流程,以促进人类评估者做出一致、公正的判断。3000多个测试集实例发布,跨越不同的难度级别和知识领域。我们的工作提供了一种标准化的方法来评估英语和汉语LLM中的人的一致性。我们还分析了使用强LLM(GPT-4)。我们的框架支持对LLM进行全面评估,因为它们被集成到现实世界的应用程序中。我们已经公开了任务树、TencentLLMEval数据集和评估方法,这些数据集已被证明在评估腾讯混元LLM的性能方面是有效的。通过这样做,我们的目标是促进安全和符合人类需求的LLM开发进展的基准测试。

1 引言

2 方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值