AutoTokenizer自动加载BERT预训练模型

最新推荐文章于 2024-09-13 12:13:05 发布

俱往矣`

最新推荐文章于 2024-09-13 12:13:05 发布

阅读量2.9k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理预训练模型 BERT

本文链接：https://blog.csdn.net/weixin_43180762/article/details/123686192

版权

自然语言处理专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文介绍了如何使用Transformers库快速加载预训练的BERT模型，重点在于中文模型的加载过程，并提供了相应的代码示例。通过`AutoModelForMaskedLM`和`AutoTokenizer`，展示了从预训练模型名获取并保存tokenizer的方法。

摘要由CSDN通过智能技术生成

自动加载BERT预训练模型

代码如下：

from transformers import (AutoModelForMaskedLM,
                          AutoTokenizer, LineByLineTextDataset,
                          DataCollatorForLanguageModeling,
                          Trainer, TrainingArguments)
# 自动加载中文预训练模型（另一种加载方法）
model_name = 'bert-base-chinese'
model = AutoModelForMaskedLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.save_pretrained(pretrain_path)  # 保存词典等文件