论文浅尝 | PanGu-Coder2: 利用排序反馈增强代码的大型语言模型

最新推荐文章于 2024-08-08 14:28:23 发布

开放知识图谱

最新推荐文章于 2024-08-08 14:28:23 发布

阅读量950

点赞数 25

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/136181294

版权

本文提出RRTF优化范式，以排序损失为反馈强化代码大语言模型（如PanGu-Coder2），在HumanEval、CoderEval和LeetCode基准上取得最佳性能，提升约30%。RRTF简化了RLHF，通过测试和教师模型的反馈指导模型生成，实现高效训练。

摘要由CSDN通过智能技术生成

笔记整理：李晓彤，浙江大学硕士，研究方向为蛋白质与大模型

链接：https://arxiv.org/pdf/2307.14936.pdf

1. 动机

作为大语言模型最有前途的应用之一，代码大语言模型（Code LLM）因其在代码相关任务中的卓越能力而引起了学术界和工业界的极大关注。在诸多提升Code LLM性能的工作中，强化学习（RL）似乎是一个有前途的方向。然而，现有的基于RL的方法，往往根据来自代码处理器的反馈信号来设计价值/奖励函数，这导致了三个限制：首先，将测试结果直接视为奖励，对基础模型的改进有限；其次，采用的强化学习算法（如PPO）在大型语言模型上实现起来很复杂，并且难以训练；此外，在训练模型时运行测试会耗费大量时间，因而之前的研究只在中等大小的模型上进行实验，且改进幅度相当有限

为了解决现有基于RL方法的问题，并进一步开发Code LLM的潜力，本文提出了RRTF这一新框架，该方法遵循RLHF的想法，但使用排序损失作为反馈，实现了一种更简单、更有效的训练方法。

2. 贡献

本文的主要贡献有：

最低0.47元/天解锁文章

开放知识图谱

关注

25
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
论文浅尝 | PanGu-Coder2: 利用排序反馈增强代码的大型语言模型

笔记整理：李晓彤，浙江大学硕士，研究方向为蛋白质与大模型链接：https://arxiv.org/pdf/2307.14936.pdf1. 动机作为大语言模型最有前途的应用之一，代码大语言模型（CodeLLM）因其在代码相关任务中的卓越能力而引起了学术界和工业界的极大关注。在诸多提升CodeLLM性能的工作中，强化学习（RL）似乎是一个有前途的方向。然而，现有的基于RL的方法，往往根据来自代码...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。