AI标注已达人类水平，RLHF或许将再不需要人类

最新推荐文章于 2024-06-22 23:30:00 发布

海森大数据

最新推荐文章于 2024-06-22 23:30:00 发布

阅读量124

点赞数

文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haisendashuju/article/details/133802626

版权

ChatGPT 对话模型掀起了AI热潮，这一工作的背后是大型语言模型 (Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement Learning from Human Feedback) ，即以强化学习方式依据人类反馈优化语言模型。

RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，这里我们按三个步骤分解：

预训练一个语言模型 (LM) ；

聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；

用强化学习 (RL) 方式微调 LM。

RLHF如今也已成为研究人员关注的焦点。但是RLHF有一个明显的问题：它需要大量高质量的人工标注数据，这不仅耗费时间和资源，还可能让标注员暴露在有害内容中。

那能不能交给AI来做呢？Google进行了这项研究。并发布了arXiv论文，谷歌用RLAIF用AI来代替RLHF中的人类（即H），完成生成反馈的工作，让大模型训练不再受制于人类的局限。

研究者通过使用大型语言模型进行自标注来训练奖励模型，而无需人类的介入。这一方法的优势在于它节省了大量的标注时间和资源，并减少了标注员受到有害内容的风险。

在训练后的人类评价中，人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。甚至在一些细节上，RLAIF的表现还要优于RLHF。

这一发现引发了关于AI自我标注和自我改进的潜力的讨论。尽管RLAIF存在一些限制，但它为AI领域的未来发展提供了新的思路和可能性。

有AI工程师转发了这篇论文并评论说，到GPT-5的时候可能就不再需要人类数据标注员了。

海森大数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI标注已达人类水平，RLHF或许将再不需要人类

ChatGPT 对话模型掀起了AI热潮，这一工作的背后是大型语言模型 (Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement Learning from Human Feedback) ，即以强化学习方式依据人类反馈优化语言模型。并发布了arXiv论文，谷歌用RLAIF用AI来代替RLHF中的人类（即H），完成生成反馈的工作，让大模型训练不再受制于人类的局限。这一方法的优势在于它节省了大量的标注时间和资源，并减少了标注员受到有害内容的风险。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。