适合初学者的大模型微调技术的可视化解释

最新推荐文章于 2024-09-24 14:34:45 发布

我爱学大模型

最新推荐文章于 2024-09-24 14:34:45 发布

阅读量522

点赞数 18

文章标签：人工智能自然语言处理大模型微调 ai大模型大语言模型 AGI 计算机技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/python1234_/article/details/139950892

版权

大模型的微调(Fine-tuning)

传统意义的大模型微调（如下图所示）对大部分组织和个人来说是不可行的，因为这些模型通常有数十亿个参数，大小为数百GB，不是每个人都能有条件使用这样的计算基础设施。

庆幸的是，如今，我们有许多更好的方法来微调大模型，下面描述了五种这样的流行技术：

下面是对这五种技术简短的解释：

LoRA： 在包含可训练参数的权重矩阵旁边添加两个低秩矩阵A和B。不微调W，而是调整这些低秩矩阵。

LoRA-FA：虽然 LoRA 大大减少了可训练参数的总量，但它仍然需要大量的激活内存来更新低秩权重。LoRA-FA（FA 代表 Frozen-A）冻结矩阵 A 并仅更新矩阵 B 。

VeRA： 在 LoRA 中，每一层都有一对不同的低秩矩阵A和B，并且这两个矩阵都经过训练。然而，在VeRA中，矩阵A和B是冻结的、随机的，并且在所有模型层中共享。VeRA专注于学习小的、层特定的缩放向量，表示为b和d，这是该设置中唯一可训练的参数。

Delta-LoRA： 在这里，除了训练低秩矩阵外，矩阵也 W 进行了调整，但不是以传统方式进行调整。取而代之的是，将两个连续训练步骤中的低秩矩阵A和B的乘积之间的差（或Δ）添加到W。

LoRA+： 在LoRA中，矩阵A和B都以相同的学习率进行更新。为矩阵B设置更高的学习率会导致更优化的收敛。

这些并不是唯一的LLM微调技术。下图描绘了常用方法的发展时间线：

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

我爱学大模型

关注

18
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。