大模型日常：ValueError: Asking to pad but the tokenizer does not have a padding token.

最新推荐文章于 2025-03-12 12:01:31 发布

嚯呀怪怪怪

最新推荐文章于 2025-03-12 12:01:31 发布

阅读量1.5k

点赞数 7

文章标签： python nlp 人工智能语言模型自然语言处理 AIGC 大模型

本文链接：https://blog.csdn.net/m0_46580983/article/details/143163794

版权

问题背景

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Llama-3.2") # 替换实际模型路径
model = AutoModelForCausalLM.from_pretrained("Llama-3.2") # 替换实际模型路径

text = "禁止为出售、购买、利用野生动物或者禁止使用的猎捕工具发布广告。将这段话生成一个关键词"

#使用分词器将文本和前缀转换为输入ID和注意力掩码

input_ids = tokenizer.encode(text, return_tensors="pt", padding=True)
attention_mask = input_ids != tokenizer.pad_token_id

# 使用模型生成摘要输出ID

output_ids = model.generate(input_ids, max_new_tokens=256, attention_mask=attention_mask, pad_token_id=tokenizer.pad_token_id)

# 使用分词器将摘要输出ID转换为文本

summary = tokenizer.decode(output_ids[0], skip_special_tokens=True)

执行上述代码将报错：

ValueError: Asking to pad but the tokenizer does not have a padding token. Please select a token to use as `pad_token` `(tokenizer.pad_token = tokenizer.eos_token e.g.)` or add a new pad token via `tokenizer.add_special_tokens({'pad_token': '[PAD]'})`

问题分析

报错提示的比较明显了意思就是我们想在分词器进行填充，但是我们没有告诉分词器用什么填充。甚至将如何操作已经提示在报错中了。

在自然语言处理（NLP）任务中，我们经常需要对一批输入进行处理，例如文本分类、情感分析、机器翻译等。为了便于模型的处理，我们通常需要保证每个输入具有相同的长度。然而，实际的输入文本长度可能不一致。因此，为了使输入具有固定长度，我们会选择一种方式对输入进行填充。

在使用PyTorch TRANSFORMERS库时，我们通常会首先使用tokenizer对输入进行分词。然而，有些情况下，我们希望对输入进行填充，但是tokenizer并没有提供专门的填充标记。

第一种方案：tokenizer.pad_token = tokenizer.eos_token

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Llama-3.2") # 替换实际模型路径
model = AutoModelForCausalLM.from_pretrained("Llama-3.2") # 替换实际模型路径

text = "禁止为出售、购买、利用野生动物或者禁止使用的猎捕工具发布广告。将这段话生成一个关键词"

# 在输入文本到分词器前执行该行代码
tokenizer.pad_token = tokenizer.eos_token    

#使用分词器将文本和前缀转换为输入ID和注意力掩码

input_ids = tokenizer.encode(text, return_tensors="pt", padding=True)
attention_mask = input_ids != tokenizer.pad_token_id

# 使用模型生成摘要输出ID

output_ids = model.generate(input_ids, max_new_tokens=256, attention_mask=attention_mask, pad_token_id=tokenizer.pad_token_id)

# 使用分词器将摘要输出ID转换为文本

summary = tokenizer.decode(output_ids[0], skip_special_tokens=True)