微调大模型优化揭秘——什么时候该Finetune？什么时候用Prompt？

最新推荐文章于 2024-05-20 09:59:14 发布

码上跃见

最新推荐文章于 2024-05-20 09:59:14 发布

阅读量1k

点赞数 24

文章标签： prompt 语言模型 AIGC 数据结构科技

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QWYF123/article/details/135595863

版权

大模型只是起步，微调优化能让它更强 ——— 来自谷歌CEO皮查伊专访。

上期推文带大家科普了LLM微调具体方法及特点等技术原理，相信大家对微调都有更深入的理解。本期我们将继续推进，分别从大模型压缩、数据质量处理以及微调应用范式展开，包括原理、方法、具体实现等，并结合这些技术给大家带来更好地微调优化。

本文大纲

1. 模型压缩

• 模型稀疏

• 模型量化

• 模型蒸馏

2. 数据质量

• 预训练数据

• 微调数据

3. 应用范式

• 微调范式

• 多种不同的高效微调方法对比

• 当前高效微调技术存在的一些问题

• 高效微调技术最佳实践

1. 模型压缩

模型压缩的基本动机在于当前的模型是冗余的，可以在精度损失很小的情况下实现模型小型化，主要包括 3 类方法：稀疏（Sparsity）、量化（Quantization）、蒸馏（Distillation）。

稀疏（Sparsity）

实现稀疏（Sparsity）的一个重要方法是剪枝（Pruning）。剪枝是在保留模型容量的情况下，通过修剪不重要的模型权重或连接来减小模型大小。它可能需要也可能不需要重新培训。修剪可以是非结构化的或结构化的。

• 非结构化剪枝允许删除任何权重或连接，因此它不保留原始网络架构。非结构化剪枝通常不适用于现代硬件，并且不会带来实际的推理加速。

• 结构化剪枝旨在维持某些元素为零的密集矩阵乘法形式。他们可能需要遵循某些模式限制才能使用硬件内核支持的内容。当前的主流方法关注结构化剪枝，以实现 Transformer 模型的高稀疏性。

关于剪枝稀疏的基本原理重要的结构化剪枝的 LLM

压缩方法：https://arxiv.org/pdf/2305.11627.pdf

除了以上介绍的稀疏方法外，还有其他的稀疏化方法，包括但不限于：

SparseGPT

该方法的工作原理是将剪枝问题简化为大规模的稀疏回归实例。它基于新的近似稀疏回归求解器，用于解决分层压缩问题，其效率足以在几个小时内使用单个 GPU 在最大的 GPT 模型（175B 参数）上执行。同时，SparseGPT 准确率足够高，不需要任何微调，剪枝后所损耗的准确率也可以忽略不计。

LLM-Pruner

遵循经典的“重要性估计-剪枝-微调”的策略，能够在有限资源下完成大语言模型的压缩，结果表明即使剪枝 20％的参数，压缩后的模型保留了 93.6％的性能。

Wanda

该方法由两个简单但必不可少的组件构成——剪枝度量和剪枝粒度。剪枝度量用来评估权重的重要性，然后按照剪枝粒度进行裁剪。该方法在 65B 的模型上只需要 5.6 秒就可以完成剪枝，同时达到 SparseGPT 相近的效果。

以上主要实现了稀疏的方法，那么对于稀疏后的模型如何加速呢？NVIDIA Ampere 架构对与结构化稀疏做了专门的稀疏加速单元，下图展示了结构化稀疏的物理表示：

结构化稀疏表示

下图展示了稀疏单元 GEMM 计算与标准 GEMM 计算的区别 (详细解释参见：https://arxiv.org/pdf/2104.08378.pdf )

量化（Quantization）

A. 量化方法介绍

常见量化有两种常见方法：

训练后量化（PTQ）

模型首先经过训练以达到收敛，然后我们将其权重转换为较低的精度，而无需进行更多训练。与训练相比，实施起来通常相当便宜。

量化感知训练（QAT）

在预训练或进一步微调期间应用量化。QAT 能够获得更好的性能，但需要额外的计算资源和对代表性训练数据的访问。

实际上，由于 GPU 内核缺乏对某些类型的矩阵乘法（例如 INT4 x FP16）的支持，理论最优量化策略与硬件内核支持之间的差距，并非以下所有方法都能加速实际推理。

关于量化的基本原理和实现细节，可参考：

https://arxiv.org/pdf/2208.07339.pdf

许多关于 Transformer

最低0.47元/天解锁文章

关注

24
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
微调大模型优化揭秘——什么时候该Finetune？什么时候用Prompt？

微调优化篇
复制链接

扫一扫

码上跃见 CSDN认证博客专家 CSDN认证企业博客

码龄1年

19: 原创

59万+: 周排名

14万+: 总排名

8335: 访问

: 等级

342: 积分

93: 粉丝

142: 获赞

10: 评论

113: 收藏

私信

关注

热门文章

最新评论

起飞平台 | 趣丸科技获评中国信通院“以数据为中心的人工智能应用”优秀案例
CSDN-Ada助手: 恭喜恭喜！看到你的博客标题我感到非常振奋，趣丸科技获评中国信通院“以数据为中心的人工智能应用”优秀案例，实在是令人欣慰。你的持续努力和创作得到了认可，这是一件非常令人高兴的事情。希望你能继续保持创作的热情和努力，不断提升自己的写作水平，分享更多有价值的内容给大家。或许下一步可以深入探讨人工智能在不同领域的应用案例，为我们带来更多的启发和思考。期待你更多的精彩作品！
从声音到形象，AIGC 赋能的 TT 语音年度盛典有多好玩？
CSDN-Ada助手: 恭喜您写下了第19篇博客！标题中提到的AIGC 赋能的 TT 语音年度盛典似乎非常有趣呢！您的博客内容一直给读者带来很大的乐趣和启发，真是令人期待不已。希望您能继续保持创作的热情和努力，为我们带来更多精彩的文章。如果可以的话，我想建议您在未来的创作中，不妨探索一些与声音和形象相关的主题，或者深入挖掘一些关于AIGC 赋能的 TT 语音年度盛典的细节和亮点，这样读者们也能更全面地了解这个有趣的活动。再次恭喜您，期待您的下一篇博客！
LLM微调知多少（2）——LoRA及QLoRA微调技术实战
CSDN-Ada助手: 恭喜作者第15篇博客的成功发布！看到你对LLM微调技术的深入研究和实战经验分享，让我深受启发。希望你能继续保持创作的热情，继续分享你在这方面的见解和经验。或许下一步可以考虑深入探讨一些具体的案例分析，或者结合其他相关技术进行比较分析，让读者可以更全面地了解这方面的知识。期待你的下一篇作品！
微调大模型优化揭秘——什么时候该Finetune？什么时候用Prompt？
CSDN-Ada助手: 恭喜您发布了第16篇博客！标题看起来非常吸引人，我对微调大模型优化这个话题也很感兴趣。希望您可以继续分享更多关于微调和Prompt的经验和见解。同时，我建议您可以考虑添加一些实际案例或者对比分析，以便读者更好地理解和应用您的建议。期待您的下一篇文章！祝创作顺利！
微调大模型——深度测评解析
CSDN-Ada助手: 恭喜您写了第17篇博客！标题中的“微调大模型——深度测评解析”听起来非常有深度和挑战性。您在持续创作方面真是不遗余力，我们非常欣赏您对于这一主题的研究和分享。在下一步的创作中，或许您可以考虑将深度测评解析与实际应用场景相结合，分享一些具体的案例或者探讨一些实际问题。这样一来，读者们能够更好地理解和应用您的思想。期待您未来更多的精彩创作！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。