Transformer微调实战：通过低秩分解（LoRA）对T5模型进行微调（LoRA Fine Tune）

最新推荐文章于 2024-10-12 21:53:35 发布

bayesian1

最新推荐文章于 2024-10-12 21:53:35 发布

阅读量1.1k

点赞数 19

文章标签： transformer 深度学习人工智能模型调微

本文链接：https://blog.csdn.net/bayesian1/article/details/141428861

版权

scient

scient一个用python实现科学计算相关算法的包，包括自然语言、图像、神经网络、优化算法、机器学习、图计算等模块。

scient源码和编译安装包可以在Python package index获取。

The source code and binary installers for the latest released version are available at the [Python package index].

https://pypi.org/project/scient

可以用pip安装scient。

You can install scient like this:

pip install scient

也可以用setup.py安装。

Or in the scient directory, execute:

python setup.py install

scient.neuralnet

神经网络相关算法模块，包括attention、transformer、bert、lstm、resnet、crf、dataset、fit等。

scient.neuralnet.lora

实现了多个网络层的LoRA微调，包括Linear。

scient.neuralnet.lora.Linear(in_features: int, out_features: int, r:int, bias: bool = True)

Parameters

in_features : int
Linear层的输入节点数.
out_features : int
Linear层的输出节点数.
r : int
中间层维度为r.
bias : bool, optional
Linear层的bias参数.

Algorithms

LoRA的基本原理是冻结预训练的模型参数，然后在Transfomer的每一层中加入一个可训练的旁路矩阵（低秩可分离矩阵），接着将旁路输出与初始路径输出相加输入到网络当中，并只训练这些新增的旁路矩阵参数。其中，低秩可分离矩阵由两个矩阵组成，第一个矩阵负责降维，第二个矩阵负责升维，中间层维度为r，从而来模拟本征秩（intrinsic rank），这两个低秩矩阵能够大幅度减小参数量。

在这里插入图片描述

Examples

下面采用代码实例说明LoRA微调T5的过程，首先需要构建T5模型，T5模型的构建参见：Transformer经典模型实战：零基础训练一个面向中文的T5模型（Text to Text Transfer Transformer）
本示例所用的代码与上述链接中的T5模型构建、数据准备、训练、验证基本一致，不同之处是在模型构建时加入了如下LoRA部分：

pretrain_path='d:\\model.state_dict'

#构建T5模型，并加载预训练的权重，后面对此预训练模型进行微调。
model=transformer.T5Transformer(vocab_size=vocab_size,dropout=0.1,ffn_size=3072)
model.load_state_dict(torch.load(pretrain_path),strict=False)

#本示例的LoRA作用于attention中的query权重
for layer in model.encoder+model.decoder:
    # break
    layer.multi_head_attn.query=lora.Linear(layer.multi_head_attn.query.in_features, 
                                            layer.multi_head_attn.query.out_features,
                                            r=64,
                                            bias=layer.multi_head_attn.query.bias)

#LoRA矩阵的命名为 lora_A 和 lora_B，这里将LoRA矩阵之外的权重进行冻结
for k,v in model.named_parameters():
    # break
    if 'lora' not in k:
        v.requires_grad=False
    else:
        print(k,v.requires_grad)

进行如上设置，采用T5模型相同的训练方式，即可对T5进行微调，具体训练方式参见：Transformer经典模型实战：零基础训练一个面向中文的T5模型（Text to Text Transfer Transformer）

在训练前后，可以查看LoRA权重不断更新，非LoRA权重不更新，查看方式如下：

model.encoder[0].multi_head_attn.query.lora_A
model.encoder[0].multi_head_attn.query.lora_B
model.encoder[0].multi_head_attn.query.weight
model.encoder[0].multi_head_attn.query.bias

附代码中用到的tokenizer模型spiece.model、训练数据rewrite_train3.xlsx和预训练模型model.state_dict的下载地址：
链接：https://pan.baidu.com/s/12vEZBYldXvPrJTiFUEKGUw?pwd=DTFM
提取码：DTFM

bayesian1

关注

19
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫