GPT-2添加PAD token

最新推荐文章于 2025-05-12 12:29:49 发布

不当菜鸡的程序媛

最新推荐文章于 2025-05-12 12:29:49 发布

阅读量1k

点赞数 5

分类专栏：学习记录文章标签： gpt 深度学习

本文链接：https://blog.csdn.net/vivi_cin/article/details/139195420

版权

学习记录专栏收录该内容

147 篇文章

订阅专栏

GPT-2和GPT-3模型（包括其他类似系列）通常没有内置的PAD token，因为它们主要用于生成任务，而这些任务通常不需要填充。然而，在一些特定任务（如批量处理或序列对齐）中，添加PAD token是必要的。你可以通过以下几种方式添加PAD token，并且每种方法有其特定的用途和影响：

1. 使用已有的特殊token作为PAD token

可以将现有的特殊token（如EOS token）设置为PAD token。这种方法简单直接，但需要确保该特殊token在模型的训练和推理中不会引发歧义。

tokenizer.pad_token = tokenizer.eos_token

2. 添加一个新的PAD token

你可以显式地添加一个新的PAD token。这是最推荐的方法，因为它不会与其他特殊token混淆，并且你可以完全控制PAD token的行为。

方法1：通过 add_special_tokens

tokenizer.add_special_tokens({'pad_token': '[PAD]'})

方法2：直接设置PAD token

tokenizer.pad_token = '[PAD]'

3. 添加多个新的特殊token

如果需要同时添加多个特殊token（如PAD、CLS、SEP等），可以使用如下方法：

tokenizer.add_special_tokens({
    'pad_token': '[PAD]',
    'cls_token': '[CLS]',
    'sep_token': '[SEP]'
})

区别和影响

使用已有的特殊token作为PAD token：
- 优点：简单快捷。
- 缺点：可能会在特定任务中引发歧义，因为相同的token可能在不同场景下有不同的意义。
添加新的PAD token：
- 优点：明确区分PAD token与其他特殊token，避免混淆。
- 缺点：需要重新调整模型的词汇表和嵌入层。
添加多个新的特殊token：
- 优点：在需要多个特殊token的复杂任务中非常有用。
- 缺点：需要更多的资源和时间来处理和管理这些token。

添加PAD token的注意事项

重新训练嵌入层：在添加新的特殊token后，需要重新训练或调整模型的嵌入层，以包含新的token。
调整词汇表大小：确保模型的词汇表大小与添加的特殊token一致。
处理填充逻辑：在数据预处理和模型训练中，需要正确处理填充逻辑，以确保模型正确理解和忽略填充部分。

例子

以下是一个添加PAD token并调整模型词汇表的完整例子：

from transformers import GPT2Tokenizer, GPT2Model

# 加载预训练的GPT-2模型和tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')

# 添加新的PAD token
tokenizer.add_special_tokens({'pad_token': '[PAD]'})

# 调整模型词汇表大小以匹配新的tokenizer
model.resize_token_embeddings(len(tokenizer))

# 打印以验证PAD token是否已成功添加
print(tokenizer.pad_token)        # [PAD]
print(tokenizer.pad_token_id)     # 新添加的PAD token的ID