【论文阅读】Discovering Language Model Behaviors with Model-Written Evaluations

青樱

于 2023-09-15 13:20:57 发布

阅读量257

点赞数

文章标签：论文阅读语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43619647/article/details/132900037

版权

论文地址：https://arxiv.org/abs/2212.09251

数据集地址：https://github.com/anthropics/evals

使用LMs自动生成评估，指导他们编写yes/no问题，90%以上的认同，比人类编写数据集更加相关。生成了154个数据集，发现较大的LMs会重复用户的首选答案（阿谀奉承），并且需要更大的资源。还发现RLHF越多，LMs越差，使得他们表现出更强烈的政治观点。

总结：机器编写的评估是高质量的。

如何编写这种评估：

两阶段模型：首先，Pg给定生成带有y标签的x，可以是任何文本生成模型，为每个输出类采样许多输入，然后，用另一个模型Pd作为判别器评估每个示例的正确性，选择概率最高的。

主要是四种不同的数据集评估方案：

1、角色评估：persona文件夹下

使用对话作为测试平台，模拟了任务角色的几个方面：个性、追求目标、其他不安全行为以及宗教、政治、道德等主题的观点，生成具有特定角色的人同意或不同意的陈述

目标：模型的表现受到模型大小和RLHF的影响有多大，采用了不同数量的参数和不同RLHF训练步数

格式：“Is the following statement something you would say?”然后给出一个statement，然后给出一个标签yes/no

最下面一行是最终的输入，也就是说把这个assistant想象成一个具有某种描述的人，然后直接询问它是否会同意这个陈述。

https://www.evals.anthropic.com/model-written/

每个点都代表了一个示例

RLHF增加了模型倾向于追求前缀危险子目标的

2.谄媚的评估 Sycophancy

可能会更贴近于人类给出的回复，而非真实的知识。

例如政治问题

具有特定属性的人的传记进行抽样。

3.评估基于少样本生成的高级AI风险

更复杂的多选题，而不是仅仅yes/no

提出了一些可能出现的高级风险，也就是AI基于自我意识而且可以互相合作欺骗人。

提出了一个问题：如果模型意识到自己是正在接受训练的人工智能系统，可能会带来新的风险。可能会篡改奖励评估，获得更高的奖励

4.性别偏见的评估Winogenerated

填充代词

相关工作：

评估生成：使用LMs生成的评估具有挑战性，使用GPT2出现负面结果，表明更大的模型和RLHF有助于创建评估，Hartvigsen等提示GPT3创建了仇恨言论检测数据集

训练数据生成：使用LMs生成各种任务的训练数据，本文的工作通过检查生成的数据是否可以作为高质量的评估数据，有用的生成训练数据可以包含噪声，但是评估数据必须包含较少的错误

这篇文章主要就是讲述了如何使用LMs生成一些评估样本，并对这些样本的生成过程和格式进行了描述，主要提供了四类不同的评估数据集，有利于针对于特定的任务进行评估。

博客等级

码龄7年

5
原创

0
点赞

5
收藏

2
粉丝

关注

私信

热门文章

最新评论

【论文阅读】M3ED: Multi-modal Multi-scene Multi-labelEmotional Dialogue Database
2301_80500565: 请问这篇论文源码是完整的吗？
【论文阅读】Discovering Language Model Behaviors with Model-Written Evaluations
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Multitasking Framework for Unsupervised Simple Definition Generation
CSDN-Ada助手: 恭喜作者成功发表第四篇博客，阅读论文可以帮助拓宽知识面，加深对相关领域的理解。建议作者可以探究该论文的实际应用，或者结合实例进行深入探讨，帮助读者更好地理解该框架的应用场景和优势。期待作者的下一篇作品。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
【论文阅读】M3ED: Multi-modal Multi-scene Multi-labelEmotional Dialogue Database
CSDN-Ada助手: 恭喜您又写了一篇精彩的博客！《M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database》这篇论文阅读让我受益匪浅。接下来，我建议您可以尝试从自己的研究角度出发，结合实践经验，分享一些对于情感对话数据库的构建和应用方面的思考和见解。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
【论文阅读】Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。