OpenAI开源超级对齐方法：用GPT-2，监督、微调GPT-4

richerg85

于 2023-12-16 15:08:51 发布

阅读量1.2k

点赞数 21

文章标签： gpt chatgpt openai aigc 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/richerg85/article/details/135033080

版权

12月15日，OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型，实现更好的新型对齐方法。

目前，大模型的主流对齐方法是RLHF（人类反馈强化学习）。但随着大模型朝着多模态、AGI发展，神经元变得庞大、复杂且难控制，RLHF便有点力不从心。

做个不太恰当的比喻，就像是工厂的保安一样：一个20人的小工厂，3个保安就能应付；如果发展到5000人的大工厂呢？仅靠人工就不太行，需要摄像头、智能门禁、温/湿传感器等设备，实现更高效的安全监控。

同理，OpenAI为了提升大模型的安全性，提出了“弱监督”的技术概念。并使用小参数的GPT-2去监督、微调GPT-4，同时使用辅助置信损失、无监督微调等增强方法，可以恢复GPT-4近80%的性能，达到GPT-3 和GPT-3.5之间的能力。

这表明，“弱监督”对齐方法是可行的。虽然目前还无法像RLHF那样拟人化、灵活，但这指明了一条全新对齐方向，用AI监督、微调AI，是未来提升大模型安全、性能的重要渠道之一。

开源地址：https://github.com/openai/weak-to-strong

论文下载地址：https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

此外，OpenAI还公布成立了一个1000万美元的“超级

最低0.47元/天解锁文章

关注

21
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。