【解决单个样本输入长度过长超过预训练模型能接受的输入长度的问题】

Chaos_栗子

于 2023-05-06 10:59:16 发布

阅读量534

点赞数

文章标签： python 语言模型

本文链接：https://blog.csdn.net/qq_30023899/article/details/130522384

版权

文章介绍了如何处理单个样本输入长度超过预训练模型如BERT所能接受的限制。通过使用BertTokenizer或AutoTokenizer的truncation、padding、max_length等参数，可以截断、填充文本以适应模型要求，并利用stride和return_overflowing_tokens来处理超出部分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

样本token过长，怎么保留

解决单个样本输入长度过长超过预训练模型能接受的输入长度的问题

// An highlighted block
# 解决单个样本输入长度过长超过 预训练模型能接受的输入长度 的问题
import logging
logging.info('================')
f = open('test.txt')
text = f.readlines()
print(text[1])
# tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")#bert-base-uncased
C_tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
token = C_tokenizer(text[1], truncation=True, max_length=40, padding=True, return_overflowing_tokens=True,stride=20,return_tensors="pt")#max_length=10 , 
for i, ipt in enumerate(token["input_ids"]):
    print(C_tokenizer.decode(ipt))