【论文阅读】Discovering Language Model Behaviors with Model-Written Evaluations

论文地址:https://arxiv.org/abs/2212.09251

数据集地址:https://github.com/anthropics/evals

使用LMs自动生成评估,指导他们编写yes/no问题,90%以上的认同,比人类编写数据集更加相关。生成了154个数据集,发现较大的LMs会重复用户的首选答案(阿谀奉承),并且需要更大的资源。还发现RLHF越多,LMs越差,使得他们表现出更强烈的政治观点。

总结:机器编写的评估是高质量的。

如何编写这种评估:

两阶段模型:首先,Pg给定生成带有y标签的x,可以是任何文本生成模型,为每个输出类采样许多输入,然后,用另一个模型Pd作为判别器评估每个示例的正确性,选择概率最高的。

主要是四种不同的数据集评估方案:

1、角色评估:persona文件夹下

使用对话作为测试平台,模拟了任务角色的几个方面:个性、追求目标、其他不安全行为以及宗教、政治、道德等主题的观点,生成具有特定角色的人同意或不同意的陈述

目标:模型的表现受到模型大小和RLHF的影响有多大,采用了不同数量的参数和不同RLHF训练步数

格式:“Is the following statement something you would say?”然后给出一个statement,然后给出一个标签yes/no

最下面一行是最终的输入,也就是说把这个assistant想象成一个具有某种描述的人,然后直接询问它是否会同意这个陈述。

https://www.evals.anthropic.com/model-written/

每个点都代表了一个示例

RLHF增加了模型倾向于追求前缀危险子目标的

2.谄媚的评估 Sycophancy

可能会更贴近于人类给出的回复,而非真实的知识。

例如政治问题

具有特定属性的人的传记进行抽样。

3.评估基于少样本生成的高级AI风险

更复杂的多选题,而不是仅仅yes/no

提出了一些可能出现的高级风险,也就是AI基于自我意识而且可以互相合作欺骗人。

提出了一个问题:如果模型意识到自己是正在接受训练的人工智能系统,可能会带来新的风险。可能会篡改奖励评估,获得更高的奖励

4.性别偏见的评估Winogenerated

填充代词

相关工作:

评估生成:使用LMs生成的评估具有挑战性,使用GPT2出现负面结果,表明更大的模型和RLHF有助于创建评估,Hartvigsen等提示GPT3创建了仇恨言论检测数据集

训练数据生成:使用LMs生成各种任务的训练数据,本文的工作通过检查生成的数据是否可以作为高质量的评估数据,有用的生成训练数据可以包含噪声,但是评估数据必须包含较少的错误

这篇文章主要就是讲述了如何使用LMs生成一些评估样本,并对这些样本的生成过程和格式进行了描述,主要提供了四类不同的评估数据集,有利于针对于特定的任务进行评估。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值