如何使用HuggingFace训练Transformer

玄心阮

已于 2023-01-31 10:05:57 修改

阅读量1.3k

点赞数

于 2023-01-27 17:11:13 首次发布

本文链接：https://blog.csdn.net/weixin_41699413/article/details/128770011

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

NLP

2 篇文章 0 订阅

订阅专栏

文章目录

HuggingFace Transformers

HuggingFace Transformers

使用BERT和其他各类Transformer模型，绕不开HuggingFace提供的Transformers生态。HuggingFace提供了各类BERT的API（transformers库）、训练好的模型（HuggingFace Hub）还有数据集（datasets）。最初，HuggingFace用PyTorch实现了BERT，并提供了预训练的模型，后来。越来越多的人直接使用HuggingFace提供好的模型进行微调，将自己的模型共享到HuggingFace社区。HuggingFace的社区越来越庞大，不仅覆盖了PyTorch版，还提供TensorFlow版，主流的预训练模型都会提交到HuggingFace社区，供其他人使用。

使用transformers库进行微调，主要包括：

Tokenizer：使用提供好的Tokenizer对原始文本处理，得到Token序列；
构建模型：在提供好的模型结构上，增加下游任务所需预测接口，构建所需模型；
微调：将Token序列送入构建的模型，进行训练。

Tokenizer

下面两行代码会创建 BertTokenizer，并将所需的词表加载进来。首次使用这个模型时，transformers 会帮我们将模型从HuggingFace Hub下载到本地。

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')

用得到的tokenizer进行分词：

encoded_input = tokenizer("我是一句话")
print(encoded_input)

输出

{'input_ids': [101, 2769, 3221, 671, 1368, 6413, 102], 
'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 
'attention_mask': [1, 1, 1, 1, 1, 1, 1]}

得到的一个Python dict。其中，input_ids最容易理解，它表示的是句子中的每个Token在词表中的索引数字。词表（Vocabulary）是一个Token到索引数字的映射。可以使用decode()方法，将索引数字转换为Token。

 tokenizer.decode(encoded_input["input_ids"])

输出

'[CLS] 我 是 一 句 话 [SEP]'

可以看到，BertTokenizer在给原始文本处理时，自动给文本加上了[CLS]和[SEP]这两个符号，分别对应在词表中的索引数字为101和102。decode()之后，也将这两个符号反向解析出来了。

token_type_ids主要用于句子对，比如下面的例子，两个句子通过[SEP]分割，0表示Token对应的input_ids属于第一个句子，1表示Token对应的input_ids属于第二个句子。不是所有的模型和场景都用得上token_type_ids。

encoded_input = tokenizer("您贵姓?", "免贵姓李")
print(encoded_input)

{'input_ids': [101, 2644, 6586, 1998, 136, 102, 1048, 6586, 1998, 3330, 102], 
'token_type_ids': [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1], 
'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

text = '[CLS]'
print('Original Text : ', text)
print('Tokenized Text: ', tokenizer.tokenize(text))
print('Token IDs     : ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(text)))
print('\n')

text = '[SEP]'
print('Original Text : ', text)
print('Tokenized Text: ', tokenizer.tokenize(text))
print('Token IDs     : ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(text)))
print('\n')

text = '[PAD]'
print('Original Text : ', text)
print('Tokenized Text: ', tokenizer.tokenize(text))
print('Token IDs     : ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(text)))

Original Text :  [CLS]
Tokenized Text:  ['[CLS]']
Token IDs     :  [101]

Original Text :  [SEP]
Tokenized Text:  ['[SEP]']
Token IDs     :  [102]

Original Text :  [PAD]
Tokenized Text:  ['[PAD]']
Token IDs     :  [0]

句子通常是变长的，多个句子组成一个Batch时，attention_mask就起了至关重要的作用。

batch_sentences = ["我是一句话", "我是另一句话", "我是最后一句话"]
batch = tokenizer(batch_sentences, padding=True, return_tensors="pt")
print(batch)

{'input_ids': 
 tensor([[ 101, 2769, 3221,  671, 1368, 6413,  102,    0,    0],
        [ 101, 2769, 3221, 1369,  671, 1368, 6413,  102,    0],
        [ 101, 2769, 3221, 3297, 1400,  671, 1368, 6413,  102]]), 
 'token_type_ids': 
 tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0]]), 
 'attention_mask': 
 tensor([[1, 1, 1, 1, 1, 1, 1, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1]])}

对于这种batch_size = 3的场景，不同句子的长度是不同的，padding=True表示短句子的结尾会被填充[PAD]符号，return_tensors="pt"表示返回PyTorch格式的Tensor。attention_mask告诉模型，哪些Token需要被模型关注而加入到模型训练中，哪些Token是被填充进去的无意义的符号，模型无需关注。

Model

下面两行代码会创建BertModel，并将所需的模型参数加载进来。

from transformers import BertModel
model = BertModel.from_pretrained("bert-base-chinese")

BertModel是一个PyTorch中用来包裹网络结构的torch.nn.Module，BertModel里有forward()方法，forward()方法中实现了将Token转化为词向量，再将词向量进行多层的Transformer Encoder的复杂变换。
forward()方法的入参有input_ids、attention_mask、token_type_ids等等，这些参数基本上是刚才Tokenizer部分的输出。

bert_output = model(input_ids=batch['input_ids'])

forward()方法返回模型预测的结果，返回结果是一个tuple(torch.FloatTensor)，即多个Tensor组成的tuple。tuple默认返回两个重要的Tensor：

len(bert_output)

last_hidden_state：输出序列每个位置的语义向量，形状为：(batch_size, sequence_length, hidden_size)。
pooler_output：[CLS]符号对应的语义向量，经过了全连接层和tanh激活；该向量可用于下游分类任务。

下游任务

BERT可以进行很多下游任务，transformers库中实现了一些下游任务，我们也可以参考transformers中的实现，来做自己想做的任务。比如单文本分类，transformers库提供了BertForSequenceClassification类。

class BertForSequenceClassification(BertPreTrainedModel):
    def __init__(self, config):
        super().__init__(config)
        self.num_labels = config.num_labels
        self.config = config

        self.bert = BertModel(config)
        classifier_dropout = ...
        self.dropout = nn.Dropout(classifier_dropout)
        self.classifier = nn.Linear(config.hidden_size, config.num_labels)

        ...
        
    def forward(
        ...
    ):
        ...

        outputs = self.bert(...)
        pooled_output = outputs[1]
        pooled_output = self.dropout(pooled_output)
        logits = self.classifier(pooled_output)

        ...

在这段代码中，BertForSequenceClassification在BertModel基础上，增加了nn.Dropout和nn.Linear层，在预测时，将BertModel的输出放入nn.Linear，完成一个分类任务。除了BertForSequenceClassification，还有BertForQuestionAnswering用于问答，BertForTokenClassification用于序列标注，比如命名实体识别。

transformers 中的各个API还有很多其他参数设置，比如得到每一层Transformer Encoder的输出等等，可以访问他们的文档查看使用方法。

玄心阮

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
如何使用HuggingFace训练Transformer

对于这种batch_size = 3的场景，不同句子的长度是不同的，padding=True表示短句子的结尾会被填充[PAD]符号，return_tensors="pt"表示返回PyTorch格式的Tensor。token_type_ids主要用于句子对，比如下面的例子，两个句子通过[SEP]分割，0表示Token对应的input_ids属于第一个句子，1表示Token对应的input_ids属于第二个句子。其中，input_ids最容易理解，它表示的是句子中的每个Token在词表中的索引数字。
复制链接

扫一扫