Measuring Social Norms of Large Language Models

本文是LLM系列文章,针对《Measuring Social Norms of Large Language Models》的翻译。

摘要

我们提出了一个新的挑战,即检验大型语言模型是否理解社会规范。与现有的数据集相比,我们的数据集需要对社会规范有基本的了解才能解决。我们的数据集包含了最大的一组社会规范技能,包括402项技能和12383个问题,涵盖了从意见和论点到文化和法律的广泛社会规范。我们根据K-12课程设计我们的数据集。这使得能够将大型语言模型的社会理解与人类,更具体地说,与小学生进行直接比较。虽然之前的工作在我们的基准测试中产生了近乎随机的准确性,但最近的大型语言模型,如GPT3.5-Turbo和LLaMA2 Chat,能够显著提高性能,仅略低于人类的性能。然后,我们提出了一种基于大型语言模型的多智能体框架,以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型,使其与人类相当。鉴于大型语言模型在现实世界中的应用越来越多,我们的发现尤为重要,并为未来的改进提供了独特的方向。

1 引言

2 社交框架

3 SocialAgent方法

4 实验

5

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值