transformers有关tokenzier的几个函数

最新推荐文章于 2024-08-03 20:37:29 发布

DSZhappy

最新推荐文章于 2024-08-03 20:37:29 发布

阅读量1.6k

点赞数

分类专栏： BERT 文章标签：自然语言处理

本文链接：https://blog.csdn.net/DSZhappy/article/details/120801118

版权

本文探讨了Transformers库中tokenizer的几个关键函数，包括如何确定piece所属的word，查找piece在原始输入中的位置，以及encode_plus()与tokenizer()在生成input_ids上的差异。重点指出使用fast tokenizer才能调用words()方法，并解析了batch_input_ids的生成过程。

摘要由CSDN通过智能技术生成

1、想要知道每个piece属于哪个word：

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased", use_fast=True)#use fast tokenizer
piece2word = tokenizer(input_text).words()#首尾为special token