【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

最新推荐文章于 2024-08-02 22:13:37 发布

Go 鹏ya

最新推荐文章于 2024-08-02 22:13:37 发布

阅读量458

点赞数 1

文章标签：自然语言处理学习笔记

本文链接：https://blog.csdn.net/qq_42961603/article/details/140318339

版权

结论

先说结论：
是否返回token_type_ids，可以在切词时通过 return_token_type_ids=True/False指定，指定了True就肯定会返回，指定False，不一定就不返回。

Doc地址
https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call
源码分析

由上图可以，transformers的tokenization_utils_base.py明确指出，是否返回由return_token_type_ids和self.model_input_names两个属性控制

同时可见，如果return_token_type_ids是False，那么会判断model_input_names里有没有token_type_ids；model_input_names顾名思义，就是当前的模型需要哪些输入。

默认值是有token_type_ids的，所以即使不指定，像Bert的tokenizer，切词时没有指定return_token_type_ids，并且transformers的Bert的切词源码里也没指定model_input_names相关，但是依旧可以返回token_type_ids；

但是像GPT2的切词源码里，继承时重载了model_input_names这个变量，没有指定token_type_ids，所以默认情况下GPT2的切词方式是不返回token_type_ids的