山东大学创新项目实训（6）LoRA训练之角色一致性

dt23333

已于 2025-04-21 12:16:49 修改

阅读量890

点赞数 19

分类专栏：山东大学创新项目实训-VocabVerse 文章标签：机器学习人工智能 AIGC

于 2025-04-20 22:36:42 首次发布

本文链接：https://blog.csdn.net/2301_78607855/article/details/147272850

版权

山东大学创新项目实训-VocabVerse 专栏收录该内容

6 篇文章

订阅专栏

本周工作：我们项目的漫画生成功能需要Stable Diffusion模型连续生成多个图像来组成完整的故事情节，其中比较棘手的一个问题就是角色一致性。本周我的工作是对主流的角色一致性训练方法进行了广泛尝试，并总结出了自己的经验和方法。

一、提要：何为LoRA训练？为何选择它？

啥是LoRA？

LoRA即Low Rank Adaptation（低秩适配），其中的秩和线性代数中的矩阵的秩的概念是一致的。LoRA模型的假设：预训练模型拥有极小的内在维度(instrisic dimension)，即存在一个极低维度的参数，微调它和在全参数空间中微调能起到相同的效果，同时越大的模型有越小的内在维度。基于此，Edward Hu等人提出了著名的LoRA训练方法：

对于预训练权重矩阵 $\mathbf{W}_0∈R^{d×d}$ ，LoRa限制了其更新方式，即将全参微调的增量参数矩阵 $Δ\mathbf{W}$ 表示为两个参数量更小的矩阵 $\mathbf{B}$ 和和 $\mathbf{A}$ 的低秩近似：

$\mathbf{W}_0+Δ\mathbf{W}=\mathbf{W}_0+\mathbf{BA}$

其中， $\mathbf{B} ∈R^{d×r}$ 和 $\mathbf{A} ∈R^{r×d}$ 为LoRA低秩适应的权重矩阵，此时，微调的参数量从原来的 $d∗d$ ，变成了 $2∗r∗d$ 。所以LoRA训练方法的参数量远小于原始方法，效率非常高。

在训练时，原始参数 $\mathbf{W}_0$ 被冻结，意味着 $\mathbf{W}_0$ 虽然会参与前向传播和反向传播，但是不会计算其对应梯度 $\frac{∂L}{∂\mathbf{W}_0}$ ，更不会更新其参数。

在推理时，直接按上式将 $\mathbf{BA}$ 合并到 $\mathbf{W}_0$ 中，相比原始方法不存在推理延时。

人话版：寻找两个较窄的矩阵相乘来拟合权重矩阵W，使微调效果尽可能相同。

参考文章：2106.09685，论文精读：LoRa: Low-Rank Adaptation of Large Language Models - 知乎

为啥选LoRA？

一是效率优势。我们团队使用的都是消费级显卡，最好的也不过30系列，如果使用全参数微调，对显存的要求太高，完全承担不起。使用LoRA方法训练模型，显存占用大幅降低（r=8时需要显存约6G），可在30系列GPU上训练。

二是表现优势。LoRA方法虽然是对原始方法的拟合，但在某些场景，如角色一致性上反而表现的更好、更灵活。LoRA训练时可以通过低秩更新专注于角色相关的语义空间（体态、服饰、性格等），能更精准地约束生成内容，减少角色特征漂移。并且不同角色的LoRA适配器可独立训练并动态加载，方便随时切换，无需重新加载整个模型。

人话：省时还效果好，为啥不用。