AlignBench: Benchmarking Chinese Alignment of Large Language Models

最新推荐文章于 2024-07-13 21:34:41 发布

UnknownBody

最新推荐文章于 2024-07-13 21:34:41 发布

阅读量880

点赞数 27

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/135498740

版权

LLM 日更专栏收录该内容

515 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列文章，针对《AlignBench: Benchmarking Chinese Alignment of Large Language Models》的翻译。

AlignBench:大型语言模型的中文对齐基准

摘要
1 引言
2 数据集
3 方法
4 ALIGNBENCH上的人工评估
5 ALIGNBENCH：基准测试结果
6 相关工作
7 结论

摘要

对齐已成为调整指令的大型语言模型（LLM）成为有用助手的关键步骤。然而，对中文新兴LLM的一致性的有效评估仍然严重缺乏，需要针对一致性进行基于真实场景的、开放的、具有挑战性的和自动的评估。为了填补这一空白，我们引入了ALIGNBENCH，这是一个全面的多维基准，用于评估LLM在中文中的一致性。我们的基准测试配备了人在环数据管理管道，采用规则校准的多维LLM作为法官和思想链来生成解释和最终评级作为评估，确保了高可靠性和可解释性。此外，我们报告了由CritiqueLLM评估的ALIGNBENCH，这是一个专门的中文评估者LLM，恢复了GPT-4 95%的评估能力。我们将提供公共API来评估ALIGNBENCH与CritiqueLLM，以便于评估LLM的中文对齐。所有评估代码、数据和LLM生成都在https://github.com/THUDM/AlignBench可用。

1 引言

2 数据集

3 方法

4 ALIGNBENCH上的人工评估

5 ALIGNBENCH：基准测试结果

6 相关工作

7 结论

在这项研究中，我们引入了ALIGN

了解本专栏

关注

27
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
AlignBench: Benchmarking Chinese Alignment of Large Language Models

对齐已成为调整指令的大型语言模型（LLM）成为有用助手的关键步骤。然而，对中文新兴LLM的一致性的有效评估仍然严重缺乏，需要针对一致性进行基于真实场景的、开放的、具有挑战性的和自动的评估。为了填补这一空白，我们引入了ALIGNBENCH，这是一个全面的多维基准，用于评估LLM在中文中的一致性。我们的基准测试配备了人在环数据管理管道，采用规则校准的多维LLM作为法官和思想链来生成解释和最终评级作为评估，确保了高可靠性和可解释性。
复制链接

扫一扫

专栏目录

已下架不支持订阅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。