TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs

最新推荐文章于 2024-08-31 23:13:29 发布

UnknownBody

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量118

点赞数

文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/134534085

版权

LLM 日更专栏收录该内容

515 篇文章 3 订阅

已下架不支持订阅

本文介绍了一个评估大型语言模型（LLM）与人类偏好一致性的框架——TencentLLMEval。该框架包括一个覆盖7个领域、200多个类别和800多个任务的分层任务树，用于全面评估LLM在问答、推理等任务中的能力。通过详细的标准和流程，确保了评估的一致性和公正性。此框架已应用于腾讯的混元助手，并提供了标准化的评估方法，以推动安全、符合人类需求的LLM发展。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs》的翻译。

摘要

大型语言模型（LLM）在各种自然语言任务中表现出了令人印象深刻的能力。然而，评估它们与人类偏好的一致性仍然是一个挑战。为此，我们提出了一个全面的人类评估框架，以评估LLM在不同现实世界任务中遵循指示的熟练程度。我们构建了一个包含7个主要领域的分层任务树，涵盖200多个类别和800多个任务，涵盖了问答、推理、多回合对话和文本生成等多种能力，以全面深入地评估LLM。我们还设计了详细的评估标准和流程，以促进人类评估者做出一致、公正的判断。3000多个测试集实例发布，跨越不同的难度级别和知识领域。我们的工作提供了一种标准化的方法来评估英语和汉语LLM中的人的一致性。我们还分析了使用强LLM（GPT-4）。我们的框架支持对LLM进行全面评估，因为它们被集成到现实世界的应用程序中。我们已经公开了任务树、TencentLLMEval数据集和评估方法，这些数据集已被证明在评估腾讯混元LLM的性能方面是有效的。通过这样做，我们的目标是促进安全和符合人类需求的LLM开发进展的基准测试。

1 引言

2 方法

了解本专栏

UnknownBody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs

大型语言模型（LLM）在各种自然语言任务中表现出了令人印象深刻的能力。然而，评估它们与人类偏好的一致性仍然是一个挑战。为此，我们提出了一个全面的人类评估框架，以评估LLM在不同现实世界任务中遵循指示的熟练程度。我们构建了一个包含7个主要领域的分层任务树，涵盖200多个类别和800多个任务，涵盖了问答、推理、多回合对话和文本生成等多种能力，以全面深入地评估LLM。我们还设计了详细的评估标准和流程，以促进人类评估者做出一致、公正的判断。3000多个测试集实例发布，跨越不同的难度级别和知识领域。
复制链接

扫一扫