transformers PreTrainedTokenizer

最新推荐文章于 2025-03-29 19:02:34 发布

Claroja

最新推荐文章于 2025-03-29 19:02:34 发布

阅读量1k

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/claroja/article/details/108498726

版权

Python 专栏收录该内容

398 篇文章

订阅专栏

本文深入探讨了classtransformers.PreTrainedTokenizer类的属性和参数，包括vocab_files_names、max_model_input_sizes等关键配置，以及call方法的详细参数说明，如text、text_pair、add_special_tokens等，为理解及使用预训练模型的Tokenizers提供了全面指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

class transformers.PreTrainedTokenizer

Class attributes (overridden by derived classes)

属性	描述
vocab_files_names (Dict[str, str])
pretrained_vocab_files_map (Dict[str, Dict[str, str]])
max_model_input_sizes (Dict[str, Optinal[int]])
pretrained_init_configuration (Dict[str, Dict[str, Any]])
model_input_names (List[str])
padding_side (str)

Parameters

参数	描述
model_max_length (int, optional)
padding_side – (str, optional)
model_input_names (List[string], optional)
bos_token (str or tokenizers.AddedToken, optional)
eos_token (str or tokenizers.AddedToken, optional)
unk_token (str or tokenizers.AddedToken, optional)
sep_token (str or tokenizers.AddedToken, optional)
pad_token (str or tokenizers.AddedToken, optional)
cls_token (str or tokenizers.AddedToken, optional)
mask_token (str or tokenizers.AddedToken, optional)
additional_special_tokens (tuple or list of str or tokenizers.AddedToken, optional)

call

参数	描述
text (str, List[str], List[List[str]])	单个句子或多个句子
text_pair (str, List[str], List[List[str]])	成对的单个句子或多个句子
add_special_tokens (bool, optional, defaults to True)
padding (bool, str or PaddingStrategy, optional, defaults to False)	是否padding
truncation (bool, str or TruncationStrategy, optional, defaults to False)
max_length (int, optional)
stride (int, optional, defaults to 0)
is_pretokenized (bool, optional, defaults to False)	是否已经编码成数字了
pad_to_multiple_of (int, optional)
return_tensors (str or TensorType, optional)	‘tf’>tf.constant,‘pt’>torch.Tensor,‘np’>np.ndarray
return_token_type_ids (bool, optional)
return_attention_mask (bool, optional)
return_overflowing_tokens (bool, optional, defaults to False)
return_special_tokens_mask (bool, optional, defaults to False)
return_offsets_mapping (bool, optional, defaults to False)
return_length (bool, optional, defaults to False)
verbose (bool, optional, defaults to True)