huggingface transformer AutoTokenizer输出解释

Mr.July

已于 2023-11-07 15:19:59 修改

阅读量205

点赞数 1

文章标签： transformer 深度学习人工智能 python nlp 自然语言处理

于 2023-11-06 20:39:19 首次发布

本文链接：https://blog.csdn.net/qq_45860671/article/details/134254369

版权

huggingface中的AutoTokenizer之前一直用不明白，不知道输出是什么意思，看网上也没什么人解释，在这里贴一下。

一般情况下，文本经过AutoTokenizer以后，输出会是一个字典，包含三项：

input_ids (torch.Tensor): 生成的token编号，形状为[bs, num_token]，其中bs是batchsize，num_token是token的数量。每个token编号对应于词汇表中的一个token，例如单词，子词，字符等。
attention_mask (torch.Tensor): 注意力掩码，形状为[bs, num_token]，每个元素表示该位置的token是否是有效的，如果是，则为1，否则为0。注意力掩码的作用是告诉模型哪些标记是需要注意的，哪些标记是填充的，可以忽略。
token_type_ids (torch.Tensor): 标记类型编号，形状为[bs, num_token]，每个元素表示该位置的标记属于哪个句子，如果是第一个句子，则为0，如果是第二个句子，则为1。标记类型编号的作用是告诉模型哪些标记是属于同一个句子的，这在一些任务中是有用的，例如问答，自然语言推理等。