Transformers中加载预训练模型的过程剖析(二)

Axlsss

已于 2024-07-04 11:25:14 修改

阅读量610

点赞数 11

分类专栏：深度学习大模型文章标签： transformer 深度学习 pytorch 语言模型

于 2024-05-12 16:39:07 首次发布

本文链接：https://blog.csdn.net/weixin_41878387/article/details/138759055

版权

深度学习同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

大模型

3 篇文章 0 订阅

订阅专栏

接着 Transformers中加载预训练模型的过程剖析(一) 来讲模型初始和载入预训练权重。

初始化模型

经过以上两个步骤，对于下载的 shibing624/text2vec-base-chinese-paraphrase 预训练模型(底层的模型是ernie)，我们从代码 model = AutoModel.from_pretrained(model_path) 成功加载了配置文件，并且最终返回了 model = ErnieModel.from_pretrained(model_path) ，换成以其他模型为基础的预训练模型，对应会得到 model = xxx.from_pretrained(model_path) 。

下面来看看用配置文件来初始化模型和构建模型的各个层和结构的过程。

类 ErnieModel 里是没有 from_pretrained 方法的，它只拿了配置文件和定义了模型的架构(将用于初始化模型)，如图15所示。顺着父类可以发现 from_pretrained 方法是在 transformers/modeling_utils.py 文件中(其他模型的话同样也会找到这里)，且其是一个类方法，cls表示调用它的类 ErnieModel ，如图16所示。

在这里插入图片描述

图15

在这里插入图片描述

图16

预训练权重文件

加载预训练权重是在 from_pretrained 方法的以下代码中，如图17所示。这里会按框架不同找对应的预训练权重文件，将权重保存在 archive_file 变量里，比如对于本篇文章使用的预训练模型的预训练权重文件是 pytorch_model.bin ，它在 transformers/utils/init.py 文件的 WEIGHTS_NAME 变量里面被定义，如图18所示。

在这里插入图片描述