Hugging Face 的
transformers
库是一个非常强大的工具,它为各种自然语言处理(NLP)任务提供了预训练的模型,并且简化了模型的加载、训练和推理过程。它支持多种预训练模型,如 BERT、GPT、T5、BART 等。
一、核心组件
- AutoTokenizer:用于文本的分词和编码;
- AutoModel:加载预训练模型的基础类;
- Trainer 和 TrainingArguments:用于微调模型的高阶工具;
- Pipeline:封装了从预处理到推理的完整流程,适合快速开发。
1.加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
model = AutoModel.from_pretrained( “google-bert/bert-base-cased” )
from_pretrained()可以直接传入模型的名称,从huggingface中下载,也可以直接传入模型的本地路径