Datawhale AI x 魔搭夏令营第四期魔搭-大模型应用开发方向 task04笔记-CSDN博客

本文链接：https://blog.csdn.net/2301_80297679/article/details/141355799

1.引言

1.1 大模型微调技术简介

大模型微调是指在已经预训练好的大型语言模型基础上，使用特定的数据集进行进一步的训练，以使模型适应特定任务或领域

模型微调也被称为指令微调（Instruction Tuning）或者有监督微调（Supervised Fine-tuning, SFT），该方法利用成对的任务输入与预期输出数据，训练模型学会以问答的形式解答问题，从而解锁其任务解决潜能。经过指令微调后，大语言模型能够展现出较强的指令遵循能力，可以通过零样本学习的方式解决多种下游任务。

然而，值得注意的是，指令微调并非无中生有地传授新知，而是更多地扮演着催化剂的角色，激活模型内在的潜在能力，而非单纯地灌输信息。

相较于预训练所需的海量数据，指令微调所需数据量显著减少，从几十万到上百万条不等的数据，均可有效激发模型的通用任务解决能力，甚至有研究表明，少量高质量的指令数据（数千至数万条）亦能实现令人满意的微调效果。这不仅降低了对计算资源的依赖，也提升了微调的灵活性与效率。

1.2 轻量化微调技术简介

然而，由于大模型的参数量巨大，进行全量参数微调需要消耗非常多的算力。为了解决这一问题，研究者提出了参数高效微调（Parameter-efficient Fine-tuning），也称为轻量化微调（Lightweight Fine-tuning），这些方法通过训练极少的模型参数，同时保证微调后的模型表现可以与全量微调相媲美。

常用的轻量化微调技术有LoRA、Adapter 和 Prompt Tuning。

1.3 LoRA技术简介（以下内容来自他人，保护知识产权，有需要可以直接点击下方）大语言模型微调实践——LoRA 微调细节_lora微调原理-CSDN博客

LoRA 基于大模型的内在低秩特性，增加旁路矩阵来模拟全参数微调，是目前最通用、效果最好的微调方法之一，而且能和其它参数高效微调方法有效结合。利用该方法对 175B GPT-3 微调，需要训练更新的参数量可以小到全量微调参数量的 0.01%。

上图为 LoRA 的实现原理，其实现流程为：

在原始预训练语言模型旁边增加一个旁路，做降维再升维的操作来模拟内在秩；

用随机高斯分布初始化 A，用零矩阵初始化B，训练时固定预训练模型的参数，只训练矩阵 A 与矩阵 B ；

训练完成后，将 B 矩阵与 A 矩阵相乘后合并预训练模型参数作为微调后的模型参数。

研究表明，Transformer 等神经网络包含许多执行矩阵乘法的密集层，这些权重通常具有满秩。预训练的语言模型具有较低的“本征维度（Instrinsic Dimension）”，并且可以和完整参数空间一样进行有效学习。受此启发，本文在微调过程中假设权重的更新也具有较低的“本征维度”。对于预训练模型的权重矩阵，通过低秩分解（Low-Rank Decomposition）来表示约束其更新。训练过程中被固定不再进行梯度更新，只训练和，其中。训练结束后，更新参数为。对于输入，模型的前向传播过程更新为。

由于模型整体参数量不变，所以不会降低推理时的性能。作者通过实验比较了在内容理解任务、生成任务上的效果，相比全量微调参数量显著降低，性能上持平甚至超过，相比其他高效微调方法，增加参数量不会导致性能下降。需要注意的是此方法对低秩矩阵的秩数和目标模块的选择比较敏感，可能影响模型的性能和稳定性。使用LoRA微调有以下几个细节:

对哪些参数进行微调：基于 Transformer 结构，LoRA 只对每层的 Self-Attention 的部分进行微调，有四个映射层参数可以进行微调。需要注意不同模型参数名称不同，像 StarCoder 模型 Multi-query 结构的 attention 层对应的参数名称是 attn.c_attn, attn.c_proj
Rank® 的选取：Rank 的取值作者对比了 1-64，效果上 Rank 在 4-8 之间最好，再高并没有效果提升。不过论文的实验是面向下游单一监督任务的，因此在指令微调上根据指令分布的广度，Rank选择还是需要在 8 以上的取值进行测试。
alpha 参数选取：alpha 其实是个缩放参数，训练后权重 merge 时的比例为 alpha/r
初始化：矩阵A是 Uniform 初始化，B 是零初始化，这样最初的 lora 权重为 0，所以 lora 参数是从头学起，并没有那么容易收敛。

2.实践环节

我们将进行源2.0-2B 微调实战，我们使用一个简历命名实体识别的数据集进行微调，进而开发一个AI简历助手，进而可以批量地自动识别并提取简历中的关键信息（如姓名、教育背景、工作经历等），提升简历处理的效率。

具体来说，输入一个摘录自某简历的句子，模型需要识别出所有的命名实体。实体的类别包括：姓名（NAME）、国籍（CONT）、种族（RACE）、职位（TITLE）、教育背景（EDU）、专业（PRO）、组织名（ORG）、地名（LOC）。原始的数据来自于BAAI/COIG-PC-Lite。

前面创建啥的重复好几遍了就不给大家在演示了，直接进入面板开始操作

还是一如既往要用到的东西下载：

git lfs install git clone https://www.modelscope.cn/datasets/Datawhale/AICamp_yuan_baseline.git cp AICamp_yuan_baseline/Task\ 4：源大模型微调实战/* .

（代码部分）

下载执行模型

余下的就是按照布置一步一步实现，也不赘述了。

（提一嘴有时候碰到这样的问题大伙怎么处理，内存不够了吗？）

最后就变成实现成这样：

总结：

实话实说，做的实在辣鸡，但没法子，很多东西自己没法很好的理解，但总归是了解了很多，在团队中暂时没法做出很大的贡献，但还是要尽自己的权力。