论文浅尝 | PanGu-Coder2: 利用排序反馈增强代码的大型语言模型

本文提出RRTF优化范式,以排序损失为反馈强化代码大语言模型(如PanGu-Coder2),在HumanEval、CoderEval和LeetCode基准上取得最佳性能,提升约30%。RRTF简化了RLHF,通过测试和教师模型的反馈指导模型生成,实现高效训练。
摘要由CSDN通过智能技术生成

9388d31dd4fb7fc740d3304969749258.png

笔记整理:李晓彤,浙江大学硕士,研究方向为蛋白质与大模型

链接:https://arxiv.org/pdf/2307.14936.pdf

1. 动机

作为大语言模型最有前途的应用之一,代码大语言模型(Code LLM)因其在代码相关任务中的卓越能力而引起了学术界和工业界的极大关注。在诸多提升Code LLM性能的工作中,强化学习(RL)似乎是一个有前途的方向。然而,现有的基于RL的方法,往往根据来自代码处理器的反馈信号来设计价值/奖励函数,这导致了三个限制:首先,将测试结果直接视为奖励,对基础模型的改进有限;其次,采用的强化学习算法(如PPO)在大型语言模型上实现起来很复杂,并且难以训练;此外,在训练模型时运行测试会耗费大量时间,因而之前的研究只在中等大小的模型上进行实验,且改进幅度相当有限

为了解决现有基于RL方法的问题,并进一步开发Code LLM的潜力,本文提出了RRTF这一新框架,该方法遵循RLHF的想法,但使用排序损失作为反馈,实现了一种更简单、更有效的训练方法。

2. 贡献

本文的主要贡献有:

  • 25
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值