微解读 | 到底要不要使用Code？探索Code对pre-training的影响

zenRRan

于 2024-08-29 15:27:59 发布

阅读量3

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247529101&idx=3&sn=0d3fcf8ae500b94799649cca2953a4e2&chksm=eac6e49f02bf22d43b0a612b9b6c07f63e87ffd71e95475b7ce43f32ab3b78d60b721527a829&scene=126&sessionid=0

版权

作者：李磊香港大学

To Code, or Not To Code?Exploring Impact of Code in Pre-training

https://arxiv.org/pdf/2408.10914

分析 Code Data 在 Pre-training 和 Cooldown 中的作用，分析的切入点：

- code 数据在 pretraining 数据里的比例

- code 数据的质量

- model init: 从纯 code / text /mix trained 的参数 init，然后在不同混合比例的数据上训练

- model scale 不同大小

- 不同 training stage

测评的数据集主要是 world knowledge （TrivialQA)、 NL reasoning （NLI、QA 数据集）和 Code （HumanEval MBPP）。

Key Findings：

- code data init 对 reasoning 帮助很明显，但是 world knowledge 有 tradeoff；整体上可能 code 在 25% 左右比较合适（对应 LLaMA 3.1 的 17%？），code 质量同样对 reasoning 较大的影响

- 470M -> 2.8B 的 scaling 实验中（数据量不变）确认前面的发现依旧成立，但模型更大带来了更大的 code-text ability tradeoff

- 在 Cooldown stage （高质量的数据 upweighted + lr annealing）里混 code 数据非常有帮助

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
微解读 | 到底要不要使用Code？探索Code对pre-training的影响

作者：李磊香港大学To Code, or Not To Code?Exploring Impact of Code in Pre-traininghttps://arxiv.org/pdf/2408.10914分析 Code Data 在 Pre-training 和 Cooldown 中的作用，分析的切入点：- code 数据在 pretraining 数据里的比例- code 数据的质量- ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。