HuggingFace快速入门

最新推荐文章于 2024-07-30 13:07:57 发布

程序员羊羊

最新推荐文章于 2024-07-30 13:07:57 发布

阅读量2.2k

点赞数 34

文章标签：人工智能学习 web安全开发语言智慧城市

本文链接：https://blog.csdn.net/chengxuyuanyy/article/details/140059298

版权

本文内容

本文主要包括如下内容：

Hugging Face是什么，提供了哪些内容
Hugging Face模型的使用（Transformer类库）
Hugging Face数据集的使用（Datasets类库）

HuggingFace简介

和 Github 类似，都是Hub(社区)。Hugging Face可以说的上是机器学习界的Github。Hugging Face为用户提供了以下主要功能：

：Git仓库可以让你管理代码版本、开源代码。而模型仓库可以让你管理模型版本、开源模型等。使用方式与Github类似。- ：Hugging Face为不同的机器学习任务提供了许多供大家使用，这些模型就存储在模型仓库中。
：Hugging Face上有许多公开数据集。 hugging face在NLP领域最出名，其提供的模型大多都是基于Transformer的。为了易用性，Hugging Face还为用户提供了以下几个项目：
Transformers(, ): Transformers提供了上千个预训练好的模型可以用于不同的任务，例如文本领域、音频领域和CV领域。该项目是HuggingFace的核心，可以说学习HuggingFace就是在学习该项目如何使用。
Datasets(, ): 一个轻量级的数据集框架，主要有两个功能：①一行代码下载和预处理常用的公开数据集； ② 快速、易用的数据预处理类库。
Accelerate(, ): 帮助Pytorch用户很方便的实现 multi-GPU/TPU/fp16。
Space()：Space提供了许多好玩的深度学习应用，可以尝试玩一下。

Hugging Face模型讲解

Transforms简介

Hugging Face Transformer是Hugging Face最核心的项目，你可以用它做以下事情：

直接使用预训练模型进行推理- 提供了大量预训练模型可供使用- 使用预训练模型进行迁移学习

Transformers安装

安装Transformers非常简单，直接安装即可。

pip install transformers

使用Transformers进行推理

如果你的任务是一个比较常见的，大概率可以直接使用Transformer提供的API解决，其使用方式非常简单，可以说是直接用即可。

在这里插入图片描述

对于部分特定任务，官方并没有提供相应的模型，但你也可以到，然后显示指定即可。在加载模型时，你有可能会因为缺少一些库而报错，这个时候，只需要安装对应的库，然后重启即可。

在这里插入图片描述

更多Pipeline请参考：https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines

查找Hugging Face模型

本节来介绍一下如何通过Hugging Face找到你需要的模型。

首先，我们需要到来到官网的。之后我们会看到如下界面：

其主要包含三部分：

Filter: 用于筛选你想要的模型1. 模型列表: 展示了可使用的模型。不带前缀的是官方提供的模型，例如gpt2，而带前缀的是第三方提供的模型。1. 搜索框：你可以通过搜索框按名字搜索模型。当你点进去你的模型后，你会来到如下页面：

该页面主要的几个部分：

模型介绍（Model Card）: 我们可以通过该文档查看该模型都提供了哪些功能，模型的表现等。
模型文件（Files and versions): 从该模块可以下载模型文件，一般包含多种框架的（TF、Pytorch等）模型文件和配置文件等，可以用于离线加载。
测试模型(Hosted inference API): 可以直接通过该模块测试自己的模型。同时Hugging Face也提供了Http API可以调用，这样就不需要本地部署了。

详情请参考：https://huggingface.co/docs/api-inference/index1. 使用该模型的应用（Spaces using …）：这里展示了使用该模型的应用，可以点进去玩一玩。1. 代码样例（Use in Transformers）：你可以通过该模块直接查看该模型的使用方式，直接拷贝代码到项目里就可以用了。

使用Hugging Face模型

Transformers项目提供了几个简单的API帮助用户使用Hugging Face模型，而这几个简单的API统称为AutoClass()，包括：

AutoTokenizer: 用于文本分词1. AutoFeatureExtractor: 用于特征提取1. AutoProcessor: 用于数据处理1. AutoModel: 用于加载模型它们的使用方式均为: AutoClass.from_pretrain("模型名称")，然后就可以用了。例如：

在这里插入图片描述

{'input_ids': [101, 1045, 1005, 1049, 4083, 2784, 4083, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

通常一个模型会包含上述4个中的部分功能，例如，对于bert-base-uncased模型，就包含“分词”和“模型”两项功能，我们可以通过代码样例（Use in Transformers） 模块查看：

也不是所有的模型都可以使用AutoModel，具体还要看模型的代码示例。

迁移学习

很多情况下，Hugging Face提供的模型并不能满足我们的需要，所以我们还是要自己训练模型的。此时我们可以使用Hugging Face提供的预训练模型来进行迁移学习，本节将会介绍如何使用Hugging Face进行迁移学习。

使用Hugging Face模型做迁移学习的思路和普通迁移学习几乎一致：

首先选择一个和你的任务类似的任务的预训练模型，或者直接选择一个任务无关的基础模型。1. 从原有模型中拿出主干部分(backbone)1. 然后接上自己的下游任务，构建成新的模型1. 开始训练这里我以bert-base-uncased模型作为例子，进行一次模型参数更新操作，假设我的任务是一个二分类的情感分类问题。

首先，我们先尝试一下运行该模型，我们将该模型的Use in Transformers中的样例代码拷贝过来：
在这里插入图片描述

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).

之后我们需要尝试使用一下该模型：
在这里插入图片描述

{'input_ids': tensor([[ 101, 4083, 2003, 1037, 2200, 3407,  103, 1012,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1]])}

在这里插入图片描述

通常HuggingFace模型的的使用都是分两步，首先分词（其他模型可能是特征提取AutoFeatureExtractor等），然后将第一步的结果作为模型的入参。注意第一步通常要指定return_tensors='pt'来让其返回tensor类型的数据。我们也可以使用Jupyter中的tokenizer?方式来查看其使用方法。

在这里插入图片描述

这里我们得到了和页面同样的数据，

模型测试完毕，接下来开始正式进入迁移学习。

bert-base-uncased的任务是Fill-Mask，也就是填空任务，而我们的任务是情感分类，所以我们要把原本的分类器给去掉。我们先打印一下当前模型：
在这里插入图片描述

我们可以从输出中看到，bert-base-uncased模型由两大部分构成，bert和最后的分类层cls，我们做迁移学习，肯定是要前面的bert层，所以我们可以这么提取其bert层：

在这里插入图片描述

我们来尝试一下使用model.bert:
在这里插入图片描述

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[ 0.0568,  0.1662,  0.0943,  ..., -0.0346, -0.0636,  0.1689],
         [-0.0402,  0.0757,  0.1923,  ..., -0.0217, -0.0459,  0.0711],         
         [-0.1038, -0.0372,  0.5063,  ..., -0.1587,  0.0475,  0.5513],         
         ...,      
         [ 0.1763, -0.0111,  0.1922,  ...,  0.1891, -0.1079, -0.2163],         
         [ 0.8013,  0.4953, -0.2258,  ...,  0.1501, -0.7685, -0.3709],         
         [ 0.0572,  0.3405,  0.6527,  ...,  0.4695, -0.0455,  0.3055]]],       
         grad_fn=&lt;NativeLayerNormBackward0&gt;), pooler_output=None, hidden_states=None, past_key_values=None, attentions=None, cross_attentions=None)
torch.Size([1, 9, 768])

可以看到，我们得到的是bert输出的隐层信息，我们可以将该隐层信息输入到一个线性层进行情感分类，然后进行损失函数计算，进而反向传播更新参数即可。有一点需要注意，上面返回的隐层Shape为(1, 9, 768)，其中1为batch_size，9是因为tokens有9个，768是每个token对应的向量的维度。我们在使用bert进行情感分类时，通常是使用第一个token（<bos>）的结果。

在这里插入图片描述