书生浦语XTuner低成本微调实战笔记

最新推荐文章于 2024-09-28 21:20:29 发布

kgh666736

最新推荐文章于 2024-09-28 21:20:29 发布

阅读量392

点赞数 2

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kgh666/article/details/140068398

版权

关于微调,按照下面的教程走就好，没什么难度。

其实更想深入地谈一谈微调：

更大的模型往往会产生更好的性能，例如，生成式预训练变压器3 (GPT-3)9具有1750亿个参数，可以生成前所未有质量的自然语言，并可以在适当的提示下执行各种期望的零射任务，并获得满意的结果。

但模型太大会导致微调和存储所有参数的成本过高，这就是最开始的全参数微调。这阻碍了PLM的应用，因为实际部署和实验验证的成本几乎难以承受。那么能否通过少数参数的优化来有效地模拟大型模型呢？

人们在这种想法下做了很多设计，尽管每种方法都针对PLM中可训练参数的结构和位置提出了不同的设计，但它们本质上是在适应阶段调整一个“增量”，也就是说可训练参数的一小部分可以放置在PLM中任何位置。所以，总的来说，可以叫做增量调优。例如，GPT-3的香草微调需要更新大约1752.55亿个参数，这在工业界和学术界几乎是不可行的。然而，如果我们只调整每个变压器层中注入的低秩分解矩阵，则只有3770万个参数会参与反向传播。至于增量调优的原理，我也还在琢磨，具体的可以看下面的文献：

参考文献：Ding, N., Qin, Y., Yang, G. et al. Parameter-efficient fine-tuning of large-scale pre-trained language models. Nat Mach Intell 5, 220–235 (2023). https://doi.org/10.1038/s42256-023-00626-4

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。