encoding = self.tokenizer(
text,
add_special_tokens=True, # 句子开头和分隔加cls sep [cls] + text + [sep]
max_length=self.max_len,
return_token_type_ids=True, # 分句ids 0000000
return_attention_mask=True, # 注意力编码 1111111000
return_tensors='pt', # pytorch类型
# padding="max_length"
# truncation=True # 超过max_length就截断
)
encoding = self.tokenizer.encode_plus(
text,
add_special_tokens=True, # 句子开头和分隔加cls sep [cls] + text + [sep]
max_length=self.max_len,
return_token_type_ids=True, # 分句ids 0000000
return_attention_mask=True, # 注意力编码 1111111000
return_tensors='pt', # pytorch类型
# padding="max_length"
# truncation=True # 超过max_length就截断
)
4.0.0版本之前用encode_plus(),之后用tokenizer。tokenizer()增加了一些安全性判断,底层还是调用encode_plus()