李沐Boson AI推出RPBench-Auto：大语言模型角色扮演能力的自动化评估

最新推荐文章于 2024-09-26 17:23:00 发布

妍溶

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量69

点赞数

文章标签：人工智能语言模型自动化自然语言处理运维

Boson AI推出RPBench-Auto自动评估工具

自从推出Higgs-Llama-v2以来，我们收到了社区的许多积极反馈。我们深感社区在使用我们的模型时展现出的创造力，同时也意识到有效评估大语言模型（LLM）在角色扮演能力方面的重要性。因此，我们非常高兴地推出RPBench-Auto，这是一个专门用于评估LLM在角色扮演场景中表现的自动化评估管道。

Role-Play Benchmark (RPBench)

RPBench包含两个设定：基于角色的和基于场景的角色扮演。

在基于角色的设定中，用户可以像在character.ai等平台上那样，自由地与由他人创建的角色聊天。我们的基准测试包含80个由在线社区创建的独特角色。在实际场景中，仅指定角色特征往往不足以带来引人入胜的角色扮演体验。用户通常需要提供更多的上下文，例如过去的事件、角色与他人的关系、情感状态和目标。我们引入了一个类似于文字角色扮演游戏（RPG）和互动电影的场景设定。每个场景包含情节概述、角色简介、场景目标和进展标准。此设定允许用户通过对话影响情节的发展，并观察模型在各种情况下的表现。

RPBench-Auto

受ArenaHard和Alpaca Eval的启发，我们使用一个评审模型以互动方式提供反馈。这使我们能够自动评估模型的能力。

在每一轮对话中，评审模型充当人类注释者，将被评估模型的响应与基线模型的响应进行比较。此外，评审模型还提供下一轮对话的用户输入。选择的优选响应将继续对话，模拟人类评估环境中的A-B测试。我们目前使用GPT-4o作为基线模型，并使用GPT-4-Turbo作为评审模型。在基于角色的设定中，评审模型与每个角色进行5轮对话。在基于场景的设定中，评审模型与每个场景最多进行10轮对话，因对话可能在模型决定推进情节时提前结束。

这是截至2024年8月6日RPBench-Auto的排行榜。有关最新排行榜，请访问RPBench排行榜。

排名	模型	角色	场景	平均胜率
1	Higgs-Llama-3 70B V2	68.25%	73.68%	70.97%
2	Claude-3.5 Sonnet (2024-06-20)	56.68%	63.17%	59.92%
3	Claude-3 Opus (2024-02-29)	57.00%	61.68%	59.34%
4	Llama-3.1 405B Instruct (FP8)	54.00%	62.81%	58.41%
5	GPT-4-Turbo (1106 Preview)	57.93%	56.34%	57.14%
6	Llama-3.1 70B Instruct	53.25%	60.71%	56.98%
7	GPT-4o (2024-05-13)	50.00%	50.00%	50.00%
8	MiniMax abab6.5s	51.50%	46.77%	49.14%
9	Yi Large (2024-05-13)	55.70%	38.51%	47.10%
10	Higgs-Llama-3 70B V1	47.72%	44.20%	45.96%
11	Qwen2 72B Instruct	48.99%	41.20%	45.10%
12	Llama-3 70B Instruct	45.75%	43.71%	44.73%
13	Llama-3.1 8B Instruct	40.00%	43.61%	41.81%
14	DeepSeek-V2 (2024-06-28)	44.19%	37.83%	41.01%
15	Gemini 1.5 Pro	37.50%	33.67%	35.59%
16	Mistral Large (2024-02)	34.42%	36.71%	35.56%
17	Character.AI	12.47%	16.04%	14.25%

下一步是什么？

我们希望RPBench-Auto能成为评估大语言模型角色扮演能力的有效工具。然而，正如其他基于LLM-Judge的基准测试一样，RPBench-Auto也难免会受到评审模型固有偏见的影响。随着人类越来越难以准确评估高级LLM，单纯依赖人类判断已不再实际。我们致力于持续改进RPBench-Auto的评审组件，并希望将其建立为角色扮演的标准化基准。