引言:角色大模型,更像栩栩如生的人
以 ChatGPT、GPT-4 为代表的通用大模型正涌现出人工智能模型前所未有的智能水平,为最终构建通用人工智能(AGI)奠定了坚实的基础,让我们无限憧憬奇点时刻的到来。同时,在大模型技术的激涌潮流中,基于角色大模型的类人智能体技术(Humanoid Agent)的崛起也引起了广泛的关注 [1] [2]。
相较于通用大模型对智商的追求,角色大模型的研究者们专注于打造更加拟人化、具备强大共情力的角色智能体。这些智能体不再仅仅是冰冷的数据处理工具和问答机器人,而是各有人设、栩栩如生,宛如一位位良师益友。它们具备与用户建立深厚而长久连接的能力,为用户提供更加个性化、沉浸式的体验。
▲ Character.AI的“Books”类目中为用户提供了赫敏、哈利波特等耳熟能详的角色,和书中之人交谈不再是梦。
大模型技术的颠覆性发展使得角色深度个性化定制成为可能,正在为社交、游戏、影视等泛娱乐行业带来深刻的变革。在游戏领域,智能 NPC 的崛起使得游戏体验更加丰富,玩家可以与更智能、更具自主意识的虚拟角色进行更深层次的互动。
而在影视和网络文学行业,扮演 IP 角色的智能体使得用户心爱的角色摆脱原有情节的框架,在用户自定义的新场景中为其提供新鲜体验和持久陪伴。一些行业探索者,如 Character.AI [3] 和通义星尘 [4] 等,已经成功开发出初具规模的角色大模型定制平台。这些平台不仅提供数百个预定义的人设,还支持用户自定义全新的角色,给用户提供了更个性化、丰富多彩的虚拟互动体验,为下一代 UGC 社交内容平台的形态提供了丰富的想象空间。
▲ 大热番剧《间谍过家家》的女主约尔太太,在Character.AI上对新用户还是像在剧里当刺客时一样高冷。
与强调问答的准确性、安全性,旨在构建“高智商通用助手”的通用大模型研发不同,角色大模型的研究更注重让模型“像栩栩如生的人”,立得住人设、陪得了用户。这要求模型不仅具备深厚的角色知识,保持一致的对话风格,还能够生动演绎角色的魅力,为用户提供充满新鲜感和情感价值的互动体验。对于角色模型所需的这些能力,国内甚至全球范围内尚缺乏系统、全面的评测基准。因此,角色大模型在训练和评测技术上面临着与通用大模型领域不同的独特挑战。
近日,在模型训练方面,百川智能的 Baichuan-NPC 和智谱的 CharacterGLM [5] 等在角色扮演领域的大模型研究工作,为业界带来了新的对齐技术;而在性能评测方面,RoleEval [6]、CharaceterEval [7] 等基准数据集的发布为系统评估角色大模型的角色一致性、吸引力、对话能力和性格测试等细粒度属性提供了丰富的资源。
本文将详细探讨这些角色大模型研究的最新进展,并通过在 RoleEval 与 CharacterEval 这两个基准上的评测结果,全面比较前沿大模型在角色扮演领域的性能。
值得注意的是,我们发现百川智能最新发布的 Baichuan-NPC 角色大模型,在其独特的“角色增强底座+角色思维链对齐”技术支撑下,在多个评测维度上表现出色,其中文角色扮演能力显著优于通用大模型的翘楚 OpenAI GPT-4 以及 MiniMAX、通义星尘等其他角色大模型,成为中文角色扮演领域的领先者。
据悉,百川智能不仅发布了角色大模型,还推出了包括角色创建平台、搜索增强知识库等配套生态体系,支持用户以零代码的方式轻松调试和部署角色大模型,为角色大模型的基础技术发展和产业应用做出了开创性的贡献。
▲ 在开始正文之前,首先感受一下Baichuan-NPC作为最强中文角色模型的显著优势:在CharacterEval的对话能力、角色一致性、扮演吸引力三个维度都稳稳胜过GPT-4。
背景:角色大模型方兴未艾,急需评测基准与基础模型
在学术层面上,基于大模型的对话智能体(dialogue agent)可以被视为单个角色或多个角色的组合,采用角色扮演(role-play)的概念框架描述对话智能体的行为,有助于我们更精确地刻画、理解这些类人智能体的行为,并更好地开发挖掘它们的潜力 [1] [8]。
在应用层面上,角色大模型(role LLMs)指的是利用大模型模拟具有鲜明个性和对话风格的人物或角色,从而为用户提供比通用大模型更个性化、沉浸式的陪伴体验 [2] [9]。
▲ 角色大模型服务旨在满足用户定制需求,让模型做到“千人千面”,为每个用户扮演独特的角色。图片来自[2]。
在以 GPT 系列为代表的大模型崛起之前,AI 角色扮演已经引起广泛关注,微软的小冰机器人和 Replika 虚拟 AI 聊天软件等基于传统技术(规则系统和小型语言模型)的应用曾掀起过热潮。然而,由于当时语言模型的能力受限,这些类人智能体的对话流畅度不够,