概念解析 | LoRA:低秩矩阵分解在神经网络微调中的作用

R.X. NLOS

已于 2023-11-14 10:14:47 修改

阅读量890

点赞数 4

分类专栏： # 概念解析文章标签：矩阵神经网络 LLM 微调 LoRA

于 2023-11-13 09:30:02 首次发布

本文链接：https://blog.csdn.net/qazwsxrx/article/details/134369924

版权

概念解析专栏收录该内容

121 篇文章 124 订阅 ¥29.90 ¥99.00

订阅专栏

LoRA是一种用于大型语言模型微调的方法，通过低秩矩阵分解减少参数量和计算开销，同时保持微调效果。在GPT-3等模型上，LoRA已展现出高效性，降低了参数量达10000倍，内存需求降低3倍。该技术在RoBERTa、DeBERTa等模型上表现优秀，但在选择权重矩阵、控制梯度爆炸和理解低秩表示机制等方面仍面临挑战。

摘要由CSDN通过智能技术生成

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:基于低秩矩阵分解的神经网络微调方法LoRA

LoRA: Low-Rank Adaptation of Large Language Models

LoRA由如下论文提出，详细信息请参见论文原文
https://arxiv.org/abs/2106.09685

@inproceedings{
hu2022lora,
title={Lo{RA}: Low-Rank Adaptation of Large Language Models},
author={Edward J Hu and Yelong Shen and Phillip Wallis and Zeyuan Allen-Zhu and Yuanzhi Li and Shean Wang and Lu Wang and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2022},
url={https://openreview.net/for

了解本专栏

R.X. NLOS

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
概念解析 | LoRA:低秩矩阵分解在神经网络微调中的作用

在自然语言处理中,预训练语言模型通常需要在大规模通用域数据集上进行预训练,然后再在特定的下游任务上进行微调。随着预训练模型规模的不断扩大,对全模型进行微调变得越来越困难。例如GPT-3拥有1750亿个参数,独立部署多个针对不同任务微调的模型成本过高且效率低下。应运而生,它使用低秩矩阵分解的思想来进行高效的模型微调,大大降低了参数量和计算量,同时保持了微调后的模型质量。LoRA的核心思想是将模型的参数更新表示为低秩矩阵的乘积。对于预训练权重矩阵W0∈Rd×kW0∈Rd×k。
复制链接

扫一扫