hugging face 使用教程———快速入门

33 篇文章 13 订阅 ¥89.90 ¥99.00

概述

    本篇存在的意义是快速介绍hugging face使用,梳理主要部件,梳理易混淆概念。原因是:目前hugging face的使用,官方放在了3个地方(参考链接部分):使用文档、NLP教程、Transformers git的readme 文件,很多重叠内容比较浪费时间,很容易看懵。等大家有了主要概念再去看需要具体看某个函数或功能。

    本篇主要从以下维度来快速介绍hugging face使用:

    1、是什么:我觉得这么讲更适合当前(20240603)初学者,hugging face本身集成了常用的三大功能:model hub、data hub、space,和一个著名源代码库Transformers。

    2、怎么用:这里除了上面的几大部件,最需要知道的几个易混淆名词:pipeline、AutoTokenizer、AutoConfig、AutoModel、AutoModelForXXX、accelerate、Trainer、peft、Agents、optimum。

一、是什么

1、model hub

    登录官方网站(https://huggingface.co/models)可以看到如下的页面(我们选择models 选项卡)。

    其中蓝色和绿色,就是后面怎么用的时候代码里面对应的参数名,分别代表任务类型和模型名字,其中任务类型在代码中全部换为小写。

    模型内部如下,这个是一个比较复杂的代码,并且当前没有被hugging face 的Transformers git代码集成,所以有自定义的一些源码,就需要也上传到对应的hub上,调用逻辑,主要是通过config json 里面的map 字段。

2、databub

    整体和model hub类似, 登录官方网站(https://huggingface.co/datasets

3、space

    其实就是对应的服务的一个demo地址,可以先简单试一下模型效果。登录官方网站(https://huggingface.co/spaces)

4、docs

    就是对应的一些文档,这部分和源码里面的readme 有重叠。官方网址(https://huggingface.co/docs

5、Transformers

    这是整个工程的开源代码库,这个要区别Transform(这是一个架构名称,区别与CNN),这个git里面集成了一些知名的结构的源代码,比如llama,并且没有做过多的抽象,可以方便快速查看源代码

    比如:https://github.com/huggingface/transformers/tree/main/src/transformers/models

    这里就要区别使用model bub,这是两种不同的使用方式,一般而言 model bub会更新和更全。官方也有文档写怎么提交这两种方式,参见这里https://github.com/huggingface/transformers/blob/main/docs/source/zh/custom_models.md

二、怎么用

    这里以pytorch和LLM类为例,图像和声音的可以参考官方对应文档,整体流程差不多。涉及的python安装包(建议使用Python虚拟环境):

    pip install transformers datasets evaluate accelerate torch

1、AutoTokenizer、AutoModel、AutoModelForXXX、AutoConfig

首先这里还是建议使用Auto类别,AutoModel、AutoModelForXXX、特定类区别:

AutoModel:加载基础的预训练模型,不带特定任务头部。

AutoModelFor 系列:为特定任务(如分类、标注、问答等)加载预训练模型,并添加适当的任务头部。

直接使用特定模型类(如 BertModel.from_pretrained):提供明确性和特定模型功能,适合需要特定模型特性的场景。

PS:

*这里AutoTokenizer需要和model绑定保持一致,因为不同的模型使用的Tokenizer可能不一样。需要基本了解BPE算法,还有就是hugging face tokenizer默认为快速版本使用rust编写,也可以选择满速版本使用Python原生实现,只需要在参数中将 use_fast=False 即可。

*这里AutoConfig需要和model等绑定保持一致,并且AutoConfig并不能加载权重。

使用范例:

from transformers import AutoModel, AutoModelForSequenceClassification, AutoTokenizer, AutoConfig, BertModel, BertTokenizer


model_name = "bert-base-uncased"

# 使用AutoModel加载基础模型
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 使用AutoModelFor加载适用于特定任务的模型
model_for_classification = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 直接使用BertModel加载模型,等价使用AutoModel加载基础模型
model = BertModel.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

# 从预训练模型名称加载配置
config = AutoConfig.from_pretrained(model_name)
model = AutoModel.from_config(config)  # 使用配置初始化模型(仅创建模型,不加载权重)
model = AutoModel.from_pretrained(model_name)  # 从预训练模型名称加载模型(包括配置和权重)
tokenizer = AutoTokenizer.from_pretrained(model_name)

2、pipeline

上面代码其实已经很简洁,但使用pipeline后可以仅需要一行代码。

其中pipeline支持的任务:https://huggingface.co/docs/transformers/main/en/main_classes/pipelines#transformers.pipeline.task

from transformers import pipeline


# 加载文本分类pipeline
classifier = pipeline("sentiment-analysis", model="bert-base-uncased")

# 示例文本
text = "I love using transformers library!"

# 进行情感分析
result = classifier(text)
print(result)


#其中pipeline参数可以为多种

# 使用默认
classifier = pipeline("sentiment-analysis")

# 指定model
classifier = pipeline("sentiment-analysis", model="bert-base-uncased")
model_name = "bert-base-uncased"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

自定义pipeline

官方:https://github.com/huggingface/transformers/blob/main/docs/source/zh/add_new_pipeline.md

简单的修改后处理的代码如下:

class MyPipeline(TextClassificationPipeline):
    def postprocess():
        # Your code goes here
        scores = scores * 100
        # And here

my_pipeline = MyPipeline(model=model, tokenizer=tokenizer, ...)
# or if you use *pipeline* function, then:
my_pipeline = pipeline(model="xxxx", pipeline_class=MyPipeline)

完整的一个示例如下:

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import Pipeline
import torch


class CustomTextClassificationPipeline(Pipeline):
    def __init__(self, model, tokenizer, **kwargs):
        super().__init__(model=model, tokenizer=tokenizer, **kwargs)

    def _sanitize_parameters(self, **kwargs):
        preprocess_kwargs = {}
        forward_kwargs = {}
        postprocess_kwargs = {}
        return preprocess_kwargs, forward_kwargs, postprocess_kwargs

    def preprocess(self, inputs):
        # 自定义预处理步骤
        return self.tokenizer(inputs, padding=True, truncation=True, return_tensors="pt")

    def _forward(self, model_inputs):
        # 自定义前向传播步骤
        with torch.no_grad():
            outputs = self.model(**model_inputs)
        return outputs

    def postprocess(self, model_outputs):
        # 自定义后处理步骤
        logits = model_outputs.logits
        predictions = torch.nn.functional.softmax(logits, dim=-1)
        return predictions

# 加载模型和分词器
model_name_or_path = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForSequenceClassification.from_pretrained(model_name_or_path)

# 创建自定义 pipeline
custom_pipeline = CustomTextClassificationPipeline(model=model, tokenizer=tokenizer)

# 示例文本
texts = [
    "I love using the transformers library!",
    "I had a terrible experience with this product."
]

# 进行分类
results = custom_pipeline(texts)

# 输出结果
for text, result in zip(texts, results):
    print(f"Text: {text}\nClassification: {result}\n")

3、accelerate

    这里对等的相关概念还有:megtron、PyTorch FSDP、deepspeed。这里就不对比详细区别,因为整体的技术都是zero系列的思路,只不过不同的时刻支持的方案有区别,当你用的时候可以查看所使用版本支持哪些并行方案。整体适合生态而言:

*Accelerate:适合希望快速实现分布式训练的用户,尤其是使用 Hugging Face 生态系统的用户。

*DeepSpeed:适合需要训练非常大规模模型的用户,对性能和资源利用率有高要求的场景。

*PyTorch FSDP:适合需要在多 GPU 上进行大规模模型训练的用户,尤其是已经在使用 PyTorch 的用户。

    使用方式也相对简单,安装accelerate、简单设置、简单修改训练源码、启动训练,参照:https://github.com/huggingface/transformers/blob/main/docs/source/zh/accelerate.md

    # 安装库

pip install accelerate

    # 简单配置

accelerate config

    修改训练源码(查看+、-部分)  

 + from accelerate import Accelerator
  from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler
+ accelerator = Accelerator()
  model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
  optimizer = AdamW(model.parameters(), lr=3e-5)
- device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
- model.to(device)
+ train_dataloader, eval_dataloader, model, optimizer = accelerator.prepare(
+     train_dataloader, eval_dataloader, model, optimizer

+ )
  num_epochs = 3
  num_training_steps = num_epochs * len(train_dataloader)
  lr_scheduler = get_scheduler(
      "linear",
      optimizer=optimizer,
      num_warmup_steps=0,
      num_training_steps=num_training_steps
  )
  progress_bar = tqdm(range(num_training_steps))
  model.train()
  for epoch in range(num_epochs):
      for batch in train_dataloader:
-         batch = {k: v.to(device) for k, v in batch.items()}
          outputs = model(**batch)
          loss = outputs.loss
-         loss.backward()
+         accelerator.backward(loss)
          optimizer.step()
          lr_scheduler.step()
          optimizer.zero_grad()
          progress_bar.update(1)

    启动训练

accelerate launch train.py

4、peft

    Transformers原生支持一些PEFT方法,这意味着你可以加载本地存储或在Hub上的adapter权重,并使用几行代码轻松运行或训练它们。以下是受支持的方法:Low Rank Adapters、IA3、AdaLoRA。参考:https://github.com/huggingface/transformers/blob/main/docs/source/zh/peft.md

    要从huggingface的Transformers库中加载并使用PEFTadapter模型,请确保Hub仓库或本地目录包含一个adapter_config.json文件和adapter权重,如上例所示。然后,您可以使用AutoModelFor类加载PEFT adapter模型。

    1)要为因果语言建模加载一个PEFT adapter模型:可以使用AutoModelFor类或基础模型类(如OPTForCausalLM或LlamaForCausalLM)来加载一个PEFT adapter;也可以通过load_adapter方法来加载 PEFT adapter。 

    2)添加新的adapter,切换adapter,启用禁用adapter。这里需要区别:

    *enable_adapters 影响的是整个模型的适配器功能开关。

    *set_active_adapters 影响的是具体的适配器激活状态。默认使用最后一次调用该函数的适配器,所以,当需要同时使用多个适配器的时候,同时传给该函数,切不要分次传入(只有最后一个生效)。

    *load_adapter:从外部资源加载预训练的适配器,适用于已经有预训练适配器的情况。

    *add_adapter:在模型中添加一个新的适配器,适用于需要在新任务上训练适配器的情况。

    * 调用关系链:enable_adapters:如果你希望在推理或训练过程中使用适配器,那么你需要调用 enable_adapters 方法。如果你不调用这个方法,模型将不使用适配器。set_active_adapters:如果你只有一个适配器,并且不需要切换适配器,那么你不需要调用 set_active_adapters 方法。如果你有多个适配器并需要在它们之间切换,那么你需要调用这个方法。

    *get_peft_model & add_adapter: get_peft_model是 PEFT 库的一部分,专注于参数高效微调技术。add_adapter 是 AdapterHub 或 Transformers 库的一部分。

from transformers import AutoModelForCausalLM, AutoTokenizer


# 定义模型和适配器的ID
model_id = "facebook/opt-350m"
peft_model_id = "ybelkada/opt-350m-lora"

# 加载基础模型
model = AutoModelForCausalLM.from_pretrained(model_id)

# 加载PEFT适配器
model.load_adapter(peft_model_id, adapter_name="adapter_1")

# 再次加载相同的PEFT适配器,作为不同的适配器名称
model.load_adapter(peft_model_id, adapter_name="adapter_2")

# 启用适配器
model.enable_adapters()  # 禁用: model.disable_adapters()

# 设置使用的适配器,展示切换
model.set_active_adapters("adapter_1")  # 使用 adapter_1
print("Using adapter_1:")
inputs = tokenizer("Hello, how are you?", return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

model.set_active_adapters("adapter_2")  # 使用 adapter_2
print("Using adapter_2:")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# 同时使用多个适配器(如果支持)
model.set_active_adapters(["adapter_1", "adapter_2"])  # 同时使用 adapter_1 和 adapter_2
print("Using adapter_1 and adapter_2:")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# 只使用 adapter_1
model.set_active_adapters("adapter_1")
print("Using adapter_1 again:")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# 只使用 adapter_2
model.set_active_adapters("adapter_2")
print("Using adapter_2 again:")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

5、Trainer

    对于pytorch,当你的模型是模型都是标准的 torch.nn.Module,然后可以使用trainer来替代自己手写训练循环,初次之外trainer:包含了基础的训练循环并且为诸如分布式训练(也就是可以理解默认使用了acclerate),混合精度等特性增加了额外的功能。需要注意你可以使用回调来将trainer与其他库集成,查看训练循环来报告进度或提前结束训练。回调不会修改训练循环。如果想自定义损失函数等,就需要子类化 Trainer。 这里补充一点:Trainer 类支持的损失函数主要取决于所使用的模型。大多数预训练模型在其 forward 方法中已经定义了适合其任务的损失函数。如果需要自定义损失函数,可以通过继承 Trainer 类并重写 compute_loss 方法来实现。

from transformers import Trainer, TrainingArguments, AutoModelForSequenceClassification, AutoTokenizer,  PreTrainedModel, PretrainedConfig
from datasets import load_dataset
import numpy as np
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from peft import LoraConfig


# 加载数据集
dataset = load_dataset("glue", "mrpc")

# 加载预训练模型和分词器
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

#  ———————————————————————————————————— 如下是自定义模型——————————————————————————————————————————————————  #

"""
class CustomBertModel(PreTrainedModel):
    def __init__(self, config):
        super().__init__(config)
        self.bert = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", config=config)
        self.custom_layer = nn.Linear(config.hidden_size, config.num_labels)

    def forward(self, input_ids=None, attention_mask=None, token_type_ids=None, labels=None):
        outputs = self.bert(input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)
        logits = self.custom_layer(outputs[1])  # 使用 BERT 的池化输出
        loss = None
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss()
            loss = loss_fct(logits.view(-1, self.config.num_labels), labels.view(-1))
        return (loss, logits) if loss is not None else logits

# 加载配置和模型
config = PretrainedConfig.from_pretrained("bert-base-uncased", num_labels=2)
model = CustomBertModel(config)
"""

# ———————————————————————————————————— 如下是使用LoRa —————————————————————————————————————————————————— #
"""
peft_config = LoraConfig(
    lora_alpha=16,
    lora_dropout=0.1,
    r=64,
    bias="none",
    task_type="SEQ_CLS",
)
model.add_adapter(peft_config)
model.enable_adapters()  # 启用适配器,禁用: model.disable_adapters()

# peft_model = get_peft_model(model, peft_config) # 上面两行代码也可以使用这行代码替换
"""

# 预处理数据
def preprocess_function(examples):
    return tokenizer(examples['sentence1'], examples['sentence2'], truncation=True)
encoded_dataset = dataset.map(preprocess_function, batched=True)

# 定义计算指标
def compute_metrics(pred):
    labels = pred.label_ids
    preds = np.argmax(pred.predictions, axis=1)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
    acc = accuracy_score(labels, preds)
    return {
        'accuracy': acc,
        'f1': f1,
        'precision': precision,
        'recall': recall
    }

# 设置训练参数
training_args = TrainingArguments(
    output_dir='./results',
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
)

# 初始化 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encoded_dataset['train'],
    eval_dataset=encoded_dataset['validation'],
    compute_metrics=compute_metrics
)

# 开始训练
trainer.train()

# 评估模型
trainer.evaluate()

# 保存模型
save_dir = ''
model.save_pretrained(save_dir)
model = AutoModelForSequenceClassification.from_pretrained(save_dir)

6、optimum

支持的平台比较多(Intel、amd、NVIDIA等):https://huggingface.co/docs/optimum/index

鉴于目前还是都使用NVIDIA,所以重点看这里:https://github.com/huggingface/optimum-nvidia

然后发现底层其实还是TensorRT-LLM: https://github.com/NVIDIA/TensorRT-LLM,支持模型列表:Support Matrix — tensorrt_llm documentation

7、agent

目前(20240604)hugging face还在开发中,后续持续跟进,建议目前还是使用longchain 框架。

参考链接

https://huggingface.co/docs/transformers/v4.41.3/zh/index

https://huggingface.co/learn/nlp-course/zh-CN/chapter1/1

https://github.com/huggingface/transformers/tree/main/docs/source/zh

https://github.com/huggingface/transformers/tree/main/docs/source/zh/main_classes

swiGLU: Index - 笔记 

rope:一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long-CSDN博客

Yarn:大模型长度扩展综述:从直接外推ALiBi、插值PI、NTK-aware插值、YaRN到S2-Attention-CSDN博客

长文本:https://zhuanlan.zhihu.com/p/640641794 

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 我推荐您阅读 Hugging Face 官网上的入门教程。这些教程将帮助您了解如何使用 Hugging Face 的不同预训练模型,包括如何训练和部署自己的模型。此外,您还可以在 GitHub 上阅读 Hugging Face 示例代码和教程。 ### 回答2: Hugging Face是一个流行的自然语言处理(NLP)平台,提供了许多强大的工具和模型。对于初学者而言,了解Hugging Face的使用,可以从以下入门教程开始: 1. 官方文档:Hugging Face的官方文档是学习的最佳资源之一。它提供了全面的介绍和指南,包括了解Hugging Face的首选库"transformers",以及相关工具和概念。 2. Hugging Face的示例代码库:Hugging Face维护了一个GitHub代码库,其中包含丰富的示例代码和教程。您可以通过阅读和运行这些代码来学习如何使用Hugging Face的模型和工具。 3. Hugging Face的模型hub:Hugging Face的模型hub是一个集中存储各种预训练模型和示例任务的库。您可以通过模型hub了解各种模型的用法,并从中获取灵感来解决自己的NLP任务。 4. 社区贡献的教程和博客:Hugging Face的用户社区非常活跃,许多用户会分享自己的使用经验、教程和技巧。您可以在Hugging Face的论坛、博客或社交媒体上搜索相关主题,来获取更多的入门教程推荐和学习资源。 总结:对于入门Hugging Face的最佳教程推荐,我建议首先阅读官方文档,然后尝试运行一些示例代码来熟悉常见的用例。同时,积极参与Hugging Face的社区和讨论,从其他用户的经验中学习。这样的综合学习方式将帮助您快速入门Hugging Face并从中受益。 ### 回答3: Hugging Face自然语言处理领域的一家知名公司,他们开发了许多先进的模型和工具,其中最著名的是 Transformer 模型和相关的库 Transformers。 要学习使用 Hugging Face,我推荐开始阅读他们的官方文档。官方文档提供了详细的介绍和实例代码,让初学者能够快速入门。 在官方文档中,有一个以 "Getting Started"(入门指南)为标题的部分,这是一个非常好的起点。其中介绍了如何安装 Hugging Face 的库,以及如何在不同任务中使用预训练模型。 除了官方文档,Hugging Face 还提供了一系列的教程和示例代码,可以通过他们的 GitHub 上的教程库来获取。这些教程涵盖了从文本分类到机器翻译等不同任务的应用。 另外,Hugging Face 还维护了一个名为 "Transformers" 的库,里面包含了大量的预训练模型和工具函数。文档中对这些模型进行了详细的介绍,并提供了示例代码来演示如何使用这些模型。 除了官方文档和教程,Hugging Face 还有一个非常活跃的社区。你可以通过他们的论坛和 GitHub 上的问题区来提问和交流。社区中的其他用户和开发人员经常会分享他们的经验和解决方案,这对于学习和解决问题非常有帮助。 总结来说,Hugging Face 的官方文档、教程和社区都是学习和入门的好资源。通过阅读官方文档并参考教程和示例代码,你将能够快速上手使用 Hugging Face 的模型和工具。同时,参与社区交流也能够帮助你解决问题并学习到更多相关知识。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值