【学习总结】Python transformers AutoTokenizer encode 出现的 101 和 102_tokenizer 101(1)

这篇博客通过实例展示了Python transformers库中AutoTokenizer的工作原理,包括如何编码文本,使用encode方法添加特殊标记101和102,以及如何处理多个序列。还探讨了如何解码生成的ID,以及在批处理中的应用。博主分享了自己的学习和工作经验,并提供了全面的Python开发学习资料。
摘要由CSDN通过智能技术生成

print(tokens)

token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)

token_ids_s2e = tokenizer.encode(sequence)
print(token_ids_s2e)


输出结果:



21128
3791
[‘法’, ‘国’, ‘的’, ‘首’, ‘都’, ‘是’, ‘巴’, ‘黎’]
[3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944]
[101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102]


token\_ids\_s2e 中多了 101 和 102



sequence1 = tokenizer.decode(token_ids)
print(sequence1)

sequence2 = tokenizer.decode(token_ids_s2e)
print(sequence2)


输出结果:



法 国 的 首 都 是 巴 黎
[CLS] 法 国 的 首 都 是 巴 黎 [SEP]


101 代表 CLS,是文本的开头  
 102 代表 SEP,是文本的分隔符


## 2. 编解码多段文本



sequence_batch = [“法国的首都是巴黎”,“美国的首都是华盛顿特区” ]
token_ids_batch = tokenizer.encode(sequence_batch)
print(token_ids_batch)
sequence_ba

  • 20
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值