论文地址:https://arxiv.org/abs/2212.09251
数据集地址:https://github.com/anthropics/evals
使用LMs自动生成评估,指导他们编写yes/no问题,90%以上的认同,比人类编写数据集更加相关。生成了154个数据集,发现较大的LMs会重复用户的首选答案(阿谀奉承),并且需要更大的资源。还发现RLHF越多,LMs越差,使得他们表现出更强烈的政治观点。
总结:机器编写的评估是高质量的。
如何编写这种评估:
两阶段模型:首先,Pg给定生成带有y标签的x,可以是任何文本生成模型,为每个输出类采样许多输入,然后,用另一个模型Pd作为判别器评估每个示例的正确性,选择概率最高的。
主要是四种不同的数据集评估方案:
1、角色评估:persona文件夹下
使用对话作为测试平台,模拟了任务角色的几个方面:个性、追求目标、其他不安全行为以及宗教、政治、道德等主题的观点,生成具有特定角色的人同意或不同意的陈述
目标:模型的表现受到模型大小和RLHF的影响有多大,采用了不同数量的参数和不同RLHF训练步数
格式:“Is the following statement something you would say?”然后给出一个statement,然后给出一个标签yes/no
最下面一行是最终的输入,也就是说把这个assistant想象成一个具有某种描述的人,然后直接询问它是否会同意这个陈述。
https://www.evals.anthropic.com/model-written/
每个点都代表了一个示例
RLHF增加了模型倾向于追求前缀危险子目标的
2.谄媚的评估 Sycophancy
可能会更贴近于人类给出的回复,而非真实的知识。
例如政治问题
具有特定属性的人的传记进行抽样。
3.评估基于少样本生成的高级AI风险
更复杂的多选题,而不是仅仅yes/no
提出了一些可能出现的高级风险,也就是AI基于自我意识而且可以互相合作欺骗人。
提出了一个问题:如果模型意识到自己是正在接受训练的人工智能系统,可能会带来新的风险。可能会篡改奖励评估,获得更高的奖励
4.性别偏见的评估Winogenerated
填充代词
相关工作:
评估生成:使用LMs生成的评估具有挑战性,使用GPT2出现负面结果,表明更大的模型和RLHF有助于创建评估,Hartvigsen等提示GPT3创建了仇恨言论检测数据集
训练数据生成:使用LMs生成各种任务的训练数据,本文的工作通过检查生成的数据是否可以作为高质量的评估数据,有用的生成训练数据可以包含噪声,但是评估数据必须包含较少的错误
这篇文章主要就是讲述了如何使用LMs生成一些评估样本,并对这些样本的生成过程和格式进行了描述,主要提供了四类不同的评估数据集,有利于针对于特定的任务进行评估。