- 博客(3)
- 收藏
- 关注
原创 大模型高效微调PEFT——LoRA
随着大型语言模型参数量的不断增加,针对其进行预训练的难度越来越大,全量微调的方式也越来越不可行,如何将大模型部署在消费级显卡上进行训练成为一个热门的研究方向。LoRA论文中假设大模型在训练过程中权重的变化具有较低的“内在秩”,允许我们通过优化适应期间密集层变化的秩分解矩阵来 间接训练神经网络中的一些密集层,同时保持预训练权重冻结。简单的说,LoRA冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer 架构的每一层,极大地减少了下游任务的可训练参数的数量。
2024-01-12 17:28:07 1371 1
原创 你真的懂JVM嘛之第一篇JVM概述
学习一个技术最先开始了解的应该是它的目的,它会给我们带来什么?作为Java选手,你是否遇到以下问题?掌握JVM可以进行。(当然还可以很好的应付面试)
2023-11-18 12:34:28 103 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人