SuperCLUE-Role:重新定义中文角色大模型测评基准

SuperCLUE-Role:重新定义中文角色大模型测评基准
原创 SuperCLUE CLUE中文语言理解测评基准
2024年04月02日 16:52 浙江
图片

在人工智能的快速发展中,中文大模型在文本生成、推理能力、角色扮演等领域取得了很大的进步。其中,大模型的角色扮演能力是AI领域的一大关注热点,并且具有不错的应用前景,可以帮助开发情感陪伴工具和游戏NPC等。
当前的角色扮演测评基准包括CharacterEval、RoleBench等,这些基准的测评标准和方式往往不统一,并且在评价体系上不够全面,缺少对于模型在常见应用场景下的应用潜力的评估。
为了缓解这一问题,我们推出了SuperCLUE-Role测评基和基准。这是一个包括角色扮演基础能力和场景应用能力测评的中文基准,专门设计来评估和提升中文大模型在角色扮演方面的核心能力。SuperCLUE-Role(简称SC-Role)不仅保证了评估体系的细致全面,题目的高质量,同时在题目的多样性和应用广度进行了适当扩充。

图片

SuperCLUE-Role基准具备以下特点:
细致的分类体系:为了更好地评估模型在角色扮演的各种能力维度,设置了三个一级维度,十个二级维度,为模型评估提供了更加全面细致的评估维度;
贴近应用:为了测试中文大模型在常见应用场景下的应用潜力,设计了情感陪伴、游戏NPC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值