如何使用huggingface微调模型

1 安装包

pip install transformers[sentencepiece]
pip install datasets

2 导入数据

from datasets import load_dataset

raw_datasets = load_dataset("glue", "sst2")
raw_datasets

这里使用的是GLUE中SST2数据集,主要针对电影评论来做情感分类(二分类)。
在这里插入图片描述

3 pipeline

在这里插入图片描述
整个流程是先分词,将文本转化为向量,输入到模型,得到输出后再进行后处理操作。

4 数据处理

from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

checkpoint就是预训练好的模型。每个模型都有自己专门的tokenizer,可以执行分词,padding等操作。
来看一下具体的用法。

inputs = tokenizer("This is the first sentence.")
inputs

在这里插入图片描述
这里的输出有三项,input_id标识句子中的每个token,token_type_id就是bert中的segment embedding,用来区分两句话的(0代表第一句,1代表第二句),attention_mask用来mask掉句子末尾padding的词,防止计算注意力时有偏差。

def tokenize_function(example):
  return tokenizer(example["sentence"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True,remove_columns=['idx','sentence'])
tokenized_datasets

在这里插入图片描述
定义了一个分词的函数,将数据集中的sentence作为参数传进去。

from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

data_collator的作用是自动将同一个batch的句子padding成同一长度,而不是一次性padding整个数据集。

5 训练

from transformers import TrainingArguments
from transformers import AutoModelForSequenceClassification
from datasets import load_metric
from transformers import Trainer
import numpy as np

training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")# 训练需要的参数,默认的
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

def compute_metrics(eval_preds):
	'''
	计算评价指标
	'''
    metric = load_metric("glue", "sst2")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

这段很清晰,导入Trainer,把训练需要的模型、数据、tokenizer等一次性传入即可。compute_metrics是评价指标,我们只需要把模型得到的结果输入到metric.compute,就能自动计算得到结果。由于是二分类,模型输出的最后一维是2,我们取较大的一项作为分类结果。
接下来就是训练啦。

trainer.train()

在这里插入图片描述

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
使用Huggingface格式的模型可以按照以下步骤进行操作。首先,我们需要导入预训练好的模型和相应的tokenizer。模型和tokenizer可以根据任务的不同而选择不同的预训练模型,例如BERT、GPT等。 接下来,我们可以使用tokenizer对输入进行分词、padding等预处理操作。例如,我们可以使用以下代码对句子进行处理: ``` from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("模型名称") inputs = tokenizer("This is the first sentence.") ``` 然后,我们需要导入Trainer并将训练所需的模型、数据和tokenizer一次性传入。在Trainer中,可以设置评价指标compute_metrics,可以通过将模型的输出结果输入到metric.compute来自动计算结果。对于二分类任务,我们可以将模型输出的最后一维是2,取较大的一项作为分类结果。 最后,我们可以调用trainer.train()来进行训练。这将根据给定的数据对模型进行训练。完成以上步骤后,我们就可以使用Huggingface格式的模型进行任务相关的操作了。 需要注意的是,以上步骤只是一种常见的使用Huggingface格式的模型的方法,具体使用方式还取决于任务的需求和模型的具体特性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [如何使用huggingface微调模型](https://blog.csdn.net/qsmx666/article/details/121609335)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [使用Huggingface、PEFT和LoRA训练大型语言模型(LLM)的demo代码](https://download.csdn.net/download/qq_22593423/88203992)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值