tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

贝叶斯巴达

已于 2023-10-04 12:06:02 修改

阅读量5.9k

点赞数 4

分类专栏：模型文章标签：人工智能自然语言处理

于 2023-01-03 17:13:32 首次发布

本文链接：https://blog.csdn.net/qq_41900846/article/details/128185135

版权

模型专栏收录该内容

2 篇文章

订阅专栏

文章讨论了在BERT模型中tokenizer.encode和tokenizer.encode_plus的使用区别。encode直接产生输入ID，而encode_plus除了输入ID外，还提供token_type_ids和attention_mask，这对于文本分类任务尤其重要。在编码过程中，添加特殊标记如[CLS]和[SEP]对于模型性能有积极影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、tokenizer.encode和tokenizer.tokenize

tokenizer.tokenize ：先分词，再转成id，直接输出tensor

tokenizer.encode ：直接输出id，需要转换为tensor

sentence = "Hello, my son is cuting."
input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True))  
# tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012,  102])

input_token2 = tokenizer.tokenize(sentence)
# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']
input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)
# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])
# 并没有开头和结尾的标记：[cls]、[sep]

二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好，在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息，具体如下：

’input_ids:是单词在词典中的编码
‘token_type_ids’:区分两个句子的编码（上句全为0，下句全为1）
‘attention_mask’:指定对哪些词进行self-Attention操作

# 编码错配！ encode_plus 的编码方式比encode在文本分类上的编码方式要好

import torch 
from transformers import BertTokenizer
model_name =" bert-base-uncase"

tokenizer = BertTokenizener.from_pretrained(model_name)
sentence= "hello，myson"


-----------------------

print(tokenizer.encode(sentence))

[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]
当tokenizer.encode函数中的add_special_tokens设置为False时，同样不会出现开头和结尾标记：[cls], [sep]

-----------------------

print(tokenizer.encode_plus(sentence))

{'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}