SuperCLUE-Role：重新定义中文角色大模型测评基准

强化学习曾小健2

于 2024-11-29 15:22:38 发布

阅读量905

点赞数 15

分类专栏：大语言模型LLM 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39756314/article/details/144138497

版权

SuperCLUE-Role：重新定义中文角色大模型测评基准
原创 SuperCLUE CLUE中文语言理解测评基准
2024年04月02日 16:52 浙江
图片

在人工智能的快速发展中，中文大模型在文本生成、推理能力、角色扮演等领域取得了很大的进步。其中，大模型的角色扮演能力是AI领域的一大关注热点，并且具有不错的应用前景，可以帮助开发情感陪伴工具和游戏NPC等。
当前的角色扮演测评基准包括CharacterEval、RoleBench等，这些基准的测评标准和方式往往不统一，并且在评价体系上不够全面，缺少对于模型在常见应用场景下的应用潜力的评估。
为了缓解这一问题，我们推出了SuperCLUE-Role测评基和基准。这是一个包括角色扮演基础能力和场景应用能力测评的中文基准，专门设计来评估和提升中文大模型在角色扮演方面的核心能力。SuperCLUE-Role（简称SC-Role）不仅保证了评估体系的细致全面，题目的高质量，同时在题目的多样性和应用广度进行了适当扩充。

图片

SuperCLUE-Role基准具备以下特点：
细致的分类体系：为了更好地评估模型在角色扮演的各种能力维度，设置了三个一级维度，十个二级维度，为模型评估提供了更加全面细致的评估维度；
贴近应用：为了测试中文大模型在常见应用场景下的应用潜力，设计了情感陪伴、游戏NPC

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。