Transformers(Huggingface)包调用Roberta需要修改预训练文件名称

最新推荐文章于 2024-05-19 05:07:43 发布

天才小呵呵

最新推荐文章于 2024-05-19 05:07:43 发布

阅读量8.5k

点赞数 9

分类专栏： Pytorch 文章标签： python 深度学习预训练模型

本文链接：https://blog.csdn.net/qq_33293040/article/details/109534923

版权

Pytorch 专栏收录该内容

9 篇文章 2 订阅

订阅专栏

1 背景

最近准备毕设，想使用Roberta预训练模型，于是打算使用Transformers的from_pretrained方法简单粗暴的导入一下，但是网上开源的模型下载下来之后，发现和之前的bert预训练模型给的文件有所出入，本文简单说明如何修改文件名，以及如何使用加载语句。
（使用系统：CentOS Linux release 7.6）
下载Roberta预训练文件地址：
- 模型卡片入口（可以获取config.json）：roberta-base，roberta-large
- 如下图所示，可以在huggingface模型卡片页面获取对应的预训练模型和配置文件。
- 其他位置： Roberta github仓库

2 修改说明

先看一下修改结果：
- 我新建了一个叫pretrained_model的文件夹，文件夹下有roberta_base文件夹存放解压的预训练模型和通过1方式下载好的config.json文件。
调用方式：

from transformers import RobertaTokenizer, RobertaModel, RobertaConfig

tokenizer = RobertaTokenizer.from_pretrained("pretrained_model/roberta_base/")
config = RobertaConfig.from_pretrained("pretrained_model/roberta_base/")
model = RobertaModel.from_pretrained("pretrained_model/roberta_base/")

其他说明
- 推荐直接下载预训练模型，而不推荐使用自带原生下载的方式，即RobertaTokenizer.from_pretrained("roberta_base/")的方式使用，这样虽然保证百分之百可以使用，但是国内的下载速度着实着急，其次，这种方式下载文件的存储名称是序列码，如果下载多个预训练模型想去文件中定位相应的模型是很困难的（可以通过下载时间来判断）。所以一般都是下好预训练模型，然后直接把文件路径放到from_pretrained里。
- 在加载前需要统一模型文件名。比如bin文件都得叫pytorch_model.bin，配置文件都得叫config.json，词汇文件都得叫vocab.txt或json。这个是因为源码中的判断要求，所以别问，问就是改名。
- Roberta预训练模型不按套路出牌，稍微有点不同。需要单独下载config文件，并且多了一个merges.txt，和vocab.json配合使用。