Boson AI推出RPBench-Auto自动评估工具

自从推出Higgs-Llama-v2以来,我们收到了社区的许多积极反馈。我们深感社区在使用我们的模型时展现出的创造力,同时也意识到有效评估大语言模型(LLM)在角色扮演能力方面的重要性。因此,我们非常高兴地推出RPBench-Auto,这是一个专门用于评估LLM在角色扮演场景中表现的自动化评估管道。

Role-Play Benchmark (RPBench)

RPBench包含两个设定:基于角色的和基于场景的角色扮演。

在基于角色的设定中,用户可以像在character.ai等平台上那样,自由地与由他人创建的角色聊天。我们的基准测试包含80个由在线社区创建的独特角色。在实际场景中,仅指定角色特征往往不足以带来引人入胜的角色扮演体验。用户通常需要提供更多的上下文,例如过去的事件、角色与他人的关系、情感状态和目标。我们引入了一个类似于文字角色扮演游戏(RPG)和互动电影的场景设定。每个场景包含情节概述、角色简介、场景目标和进展标准。此设定允许用户通过对话影响情节的发展,并观察模型在各种情况下的表现。

RPBench-Auto

受ArenaHard和Alpaca Eval的启发,我们使用一个评审模型以互动方式提供反馈。这使我们能够自动评估模型的能力。

在每一轮对话中,评审模型充当人类注释者,将被评估模型的响应与基线模型的响应进行比较。此外,评审模型还提供下一轮对话的用户输入。选择的优选响应将继续对话,模拟人类评估环境中的A-B测试。我们目前使用GPT-4o作为基线模型,并使用GPT-4-Turbo作为评审模型。在基于角色的设定中,评审模型与每个角色进行5轮对话。在基于场景的设定中,评审模型与每个场景最多进行10轮对话,因对话可能在模型决定推进情节时提前结束。

这是截至2024年8月6日RPBench-Auto的排行榜。有关最新排行榜,请访问RPBench排行榜。

排名

模型

角色

场景

平均胜率

1

Higgs-Llama-3 70B V2

68.25%

73.68%

70.97%

2

Claude-3.5 Sonnet (2024-06-20)

56.68%

63.17%

59.92%

3

Claude-3 Opus (2024-02-29)

57.00%

61.68%

59.34%

4

Llama-3.1 405B Instruct (FP8)

54.00%

62.81%

58.41%

5

GPT-4-Turbo (1106 Preview)

57.93%

56.34%

57.14%

6

Llama-3.1 70B Instruct

53.25%

60.71%

56.98%

7

GPT-4o (2024-05-13)

50.00%

50.00%

50.00%

8

MiniMax abab6.5s

51.50%

46.77%

49.14%

9

Yi Large (2024-05-13)

55.70%

38.51%

47.10%

10

Higgs-Llama-3 70B V1

47.72%

44.20%

45.96%

11

Qwen2 72B Instruct

48.99%

41.20%

45.10%

12

Llama-3 70B Instruct

45.75%

43.71%

44.73%

13

Llama-3.1 8B Instruct

40.00%

43.61%

41.81%

14

DeepSeek-V2 (2024-06-28)

44.19%

37.83%

41.01%

15

Gemini 1.5 Pro

37.50%

33.67%

35.59%

16

Mistral Large (2024-02)

34.42%

36.71%

35.56%

17

 Character.AI

12.47%

16.04%

14.25%

下一步是什么?

我们希望RPBench-Auto能成为评估大语言模型角色扮演能力的有效工具。然而,正如其他基于LLM-Judge的基准测试一样,RPBench-Auto也难免会受到评审模型固有偏见的影响。随着人类越来越难以准确评估高级LLM,单纯依赖人类判断已不再实际。我们致力于持续改进RPBench-Auto的评审组件,并希望将其建立为角色扮演的标准化基准。


什么是角色扮演基准测试(RPBench)的主要功能?

角色扮演基准测试(RPBench)的主要功能是评估大语言模型在角色扮演场景中的表现。RPBench通过模拟用户与AI之间的互动,测试模型在不同情境下的应对能力。RPBench分为基于角色和基于场景两个部分,涵盖了用户创建的角色和设定好的情节,让模型展现其理解、推理和语言生成的能力。

RPBench-Auto如何改善大语言模型的评估流程?

RPBench-Auto通过自动化评估流程提高了大语言模型评估的效率和一致性。它使用一个评审模型模拟人类评估者,对模型的每次对话进行评分,并在每一轮对话后选择最佳的回复继续对话。这种自动化评估方式减少了人工干预,提高了评估的客观性和速度,同时也能大规模进行测试,从而更精确地反映模型的性能。

为什么角色扮演对于大语言模型的评估很重要?

角色扮演对大语言模型的评估很重要,因为它能测试模型在复杂、动态场景中的表现。角色扮演涉及情感表达、角色个性和情节推进等多方面的互动,能够全面检验模型的理解能力、创造性和情境适应性。通过角色扮演,可以评估模型是否能够在真实场景中生成连贯、富有意义的对话,这对实际应用至关重要。

如何设计一个角色来测试大语言模型的表现?

设计一个角色来测试大语言模型时,应考虑角色的背景、性格特点、情感状态和目标。需要设定具体的情境和角色关系,使得模型在互动中能够展现其对角色设定的理解能力。此外,还可以设置一些特定的挑战或冲突情节,以测试模型在复杂情境下的应对策略和创造性表现。

在RPBench中,场景设定的作用是什么?

在RPBench中,场景设定提供了具体的情境背景和情节发展框架,帮助评估模型在特定情境下的表现。场景设定包括情节简介、角色目标和情节进展标准,确保模型的对话生成与情节发展相一致。这种设定能够测试模型在理解情境、推进情节以及与角色互动中的表现,从而更全面地评估模型的能力。

使用自动评估模型代替人类评估有哪些潜在的风险?

使用自动评估模型代替人类评估的潜在风险包括评估偏见、缺乏人类情感理解,以及对复杂或微妙情境的处理不足。自动评估模型可能会受到训练数据中的偏见影响,导致评估结果不准确。此外,自动模型可能无法像人类一样理解复杂的情感或细微的情境变化,可能在某些情况下无法给出合理的评价。