基于Transformer的模型常见的张量类型

最新推荐文章于 2024-06-22 18:58:20 发布

pumpkin84514

最新推荐文章于 2024-06-22 18:58:20 发布

阅读量392

点赞数 8

分类专栏： AI相关学习文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/pumpkin84514/article/details/139575166

版权

60 篇文章 0 订阅

订阅专栏

在自然语言处理（NLP）任务中，特别是使用基于Transformer的模型（如BERT、RoBERTa等）进行微调时，输入数据通常会被编码成几个关键的张量。以下是三个最常见的张量类型：input_ids、attention_mask和labels，它们在预处理阶段生成，并在模型的前向传播中使用。

input_ids 是模型接收的文本输入的编码形式。当你的模型需要理解一段文本时，它不能直接处理原始的字符串文本，而是需要将文本转换为数字形式，也就是词元（tokens）的ID。这是因为机器学习模型只能处理数值输入。这个过程通常由一个叫做“分词器”（Tokenizer）的工具完成。

假设我们有这样一个句子：“我喜欢吃苹果。” 分词器会将这个句子分解为一系列的词元，然后将每个词元转换为其在模型词汇表中的ID。例如，“我”可能对应ID 100，“喜欢”对应ID 200，“吃”对应ID 300，“苹果”对应ID 400。所以 input_ids 将是这样的数组：

[100, 200, 300, 400]

但是，为了使模型能够正确处理输入，我们还需要加上一些特殊的标记，如 [CLS] 和 [SEP]，它们分别表示序列的开始和结束。这样，input_ids 实际上应该是：

[101, 100, 200, 300, 400, 102]

这里，101 和 102 分别对应 [CLS] 和 [SEP] 的ID。

attention_mask 用来告诉模型哪些部分是真正的文本，哪些部分是填充的。因为不同长度的文本需要被标准化到相同的长度以便于模型处理，所以较短的文本会被填充到最大长度。attention_mask 中的 1 表示这部分是文本，0 表示这部分是填充。

如果我们定义的最大长度是10，而我们的句子实际上只有6个词元，那么 attention_mask 将是：

[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]

labels 是你的模型试图预测的目标。在文本分类任务中，labels 是一个数字，代表文本所属的类别。例如，如果这是一个情感分析任务，labels 可能是 0 表示负面情绪，1 表示中性，2 表示正面情绪。

如果我们有这样一组训练数据，其中每个句子都有一个情感标签，那么 labels 可能是这样的数组：

[1, 2, 0, 2, 1]

这表示第一个句子是中性的，第二个句子是正面的，第三个句子是负面的，以此类推。

在实践中，你会使用像 Hugging Face Transformers 这样的库来处理上述步骤。首先，你需要加载一个分词器：

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

然后，你可以使用分词器来编码你的文本：

text = "我喜欢吃苹果。"
encoding = tokenizer.encode_plus(text, max_length=10, pad_to_max_length=True)

encoding 字典将包含 input_ids 和 attention_mask。最后，你将这些数据传递给模型，并使用 labels 来计算损失并进行训练。

这应该帮助你更好地理解这些概念及其在实际NLP任务中的应用。

关注