AutoTokenizer.from_pretrained 与BertTokenizer.from_pretrained

最新推荐文章于 2024-06-27 15:47:35 发布

不当菜鸡的程序媛

最新推荐文章于 2024-06-27 15:47:35 发布

阅读量1.3k

点赞数 10

分类专栏：学习记录文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/vivi_cin/article/details/136977355

版权

95 篇文章 0 订阅

订阅专栏

AutoTokenizer.from_pretrained 和 BertTokenizer.from_pretrained 都是 Hugging Face 的 Transformers 库中用于加载预训练模型的 tokenizer 的方法，但它们之间有一些区别。

灵活性：
- AutoTokenizer.from_pretrained：这个方法是灵活的，可以用于加载任何预训练模型的 tokenizer，不仅仅是 BERT。它会自动检测提供的模型标识符（identifier）所对应的预训练模型类型，并返回相应类型的 tokenizer。这意味着你可以使用相同的代码来加载不同类型的模型的 tokenizer，而不需要改变代码。
- BertTokenizer.from_pretrained：这个方法专门用于加载 BERT 模型的 tokenizer。虽然在命名上它表明是用于 BERT 的 tokenizer，但实际上它可以加载其他基于 BERT 结构的模型的 tokenizer，比如 RoBERTa、DistilBERT 等。然而，如果你想加载其他类型的模型的 tokenizer，你就需要使用对应的方法，比如 RobertaTokenizer.from_pretrained 用于加载 RoBERTa 模型的 tokenizer。

使用方法：

AutoTokenizer.from_pretrained：可以直接使用模型标识符（identifier）来加载预训练模型的 tokenizer，例如：

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

BertTokenizer.from_pretrained：同样可以使用模型标识符来加载 tokenizer，但是要注意，只有当模型确实是 BERT 结构时才能使用该方法，例如：

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

总的来说，如果你想要一个通用的方法来加载任何预训练模型的 tokenizer，你可以使用 AutoTokenizer.from_pretrained。但如果你确定你要加载的模型是基于 BERT 结构的，那么 BertTokenizer.from_pretrained 也是一个不错的选择。

关注

专栏目录