Lora 微调时参数的选择依据【从论文了解】

艾墨舟启航

已于 2025-05-20 18:23:20 修改

阅读量569

点赞数 9

分类专栏：大模型实战文章标签：人工智能算法机器学习

于 2025-05-20 18:22:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2501_92015334/article/details/148095880

版权

大模型实战专栏收录该内容

4 篇文章

订阅专栏

本内容重点介绍【7 UNDERSTANDING THE LOW-RANK UPDATES】的内容

该章节通过实证研究深入探讨了LoRA方法中低秩更新的性质，回答了三个关键问题，揭示了低秩适应矩阵（ΔW）的特性及其在任务适应中的作用。

详细内容：Lora 微调时参数的选择依据（从论文解读）

一、选择 Transformers 中哪些权重矩阵进行微调？

$W_q$ 和 $W_k$ 用于计算注意力分数（表示查询和键之间的相关性）。

$W_v$ 用于表示值向量（注意力机制的输入）。

$W_o$ 用于将多头注意力的输出转换为最终的输出。

二、在 Lora 微调时最优秩该如何选择？

在LoRA方法中，低秩矩阵分解的核心是确定适应矩阵 ΔW 的秩 r。秩 r 的选择需要在参数效率与模型性能之间取得平衡：

过小：可能无法充分捕捉任务相关特征，导致性能下降。
过大：增加计算和存储成本，但性能提升可能有限。

2.1 实验一：权重对秩的影响

2.2 实验二：子空间相似性分析

2.3 实验三：随机种子对比

三、适应矩阵ΔW如何与预训练权重矩阵W比较？

四、参数选择总结

4.1 秩（r）的选择

起始值：从 r=4 或 r=8 开始调参，平衡参数效率与性能。
简单任务（如分类、短文本生成）：尝试 r=1~4，极低秩可能已足够。
复杂任务（如长文本生成、跨领域适配）：逐步增加至 r=8~16。
上限建议：通常 r ≤ 64，更高秩可能引入冗余且性价比低。

4.2 权重矩阵的选择

优先组合：
- 同时适应查询（ $W_q$ ）和值（ $W_v$ ）矩阵，性能显著优于单独适应某一矩阵。
- 次优选择：适应所有注意力权重（ $W_q$ 、 $W_k$ 、 $W_v$ 、 $W_o$ ）。
避免选项：
- 仅适应 $W_k$ （键矩阵） 或 $W_o$ （输出矩阵），实验表明效果较差。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。