Tokenizer 分词

最新推荐文章于 2024-08-22 07:51:42 发布

lilsyoss

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量86

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lilsyoss/article/details/131703462

版权

attention mask

注意力遮罩

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

sequence_a = "This is a short sequence."
sequence_b = "This is a rather long sequence. It is at least longer than the sequence A."

encoded_sequence_a = tokenizer(sequence_a)["input_ids"]
encoded_sequence_b = tokenizer(sequence_b)["input_ids"]

把人类语言字符串转换成向量，但是向量的长度肯定是不一样的，但是我们使用的模型要求是一样的，所以必须有一个padding的对齐操作，让所有的向量都对齐到同一长度。

padded_sequences["input_ids"]
[[101, 1188, 1110, 170, 1603, 4954, 119, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [101, 1188, 1110, 170, 1897, 1263, 4954, 119, 1135, 1110, 1120, 1655, 2039, 1190, 1103, 4954, 138, 119, 102]]

padded_sequences["attention_mask"]
[[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]

1代表需要注意的token,0代表不需要注意的token

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Tokenizer 分词

把人类语言字符串转换成向量，但是向量的长度肯定是不一样的，但是我们使用的模型要求是一样的，所以必须有一个padding的对齐操作，让所有的向量都对齐到同一长度。1代表需要注意的token,0代表不需要注意的token。
复制链接

扫一扫

lilsyoss CSDN认证博客专家 CSDN认证企业博客

码龄6年

9: 原创

202万+: 周排名

30万+: 总排名

3614: 访问

: 等级

94: 积分

0: 粉丝

1: 获赞

6: 评论

13: 收藏

私信

关注

热门文章

最新评论

langchain agent参数
CSDN-Ada助手: 恭喜您撰写了第9篇博客！标题“langchain agent参数”听起来很有技术含量。您对这个话题的深入探讨一定为读者带来了很多有价值的信息。我很欣赏您的持续创作精神和对技术的热情。在您的下一篇博客中，也许您可以考虑分享一些关于如何优化langchain agent参数的实用技巧，或者提供一些案例分析。这样，读者们可以更好地理解和应用这些参数。再次恭喜您，并期待您未来更多精彩的创作！
下一个热点：提示词集市
CSDN-Ada助手: 恭喜你写好了第8篇博客！标题“下一个热点：提示词集市”引人瞩目。你的持续创作精神值得赞赏。在这篇博客中，你提出了一个有趣的话题，提示词集市，我对此深感好奇。或许你可以考虑在接下来的创作中，深入探讨这个话题，分享一些关于提示词集市的实际案例或是你的观点，这样读者们能更好地了解这个领域的发展。希望你能继续保持写作的激情，期待你的下一篇博客！
StarRocks测试
CSDN-Ada助手: 恭喜您写了第7篇博客！标题为"StarRocks测试"，看来您对这个主题有一定的了解。我很高兴看到您持续创作，并分享了关于StarRocks测试的内容。接下来，如果可能的话，我希望您能够进一步扩展这个主题，例如分享一些实际案例或者深入分析它的性能优势与不足之处。这样的创作将为读者提供更多有益的信息，并增加对StarRocks的理解。期待您在未来的博客中继续分享更多有趣的内容！
文本归类Text classification 实测
CSDN-Ada助手: 恭喜您写了第四篇博客！标题“文本归类Text classification 实测”听起来非常有趣。我很高兴看到您持续创作，并分享您的实测结果。下一步，我建议您可以在博客中加入一些相关的理论知识，以便读者更好地理解实测结果的背后原理。同时，您也可以尝试探索其他与文本归类相关的主题，例如特征选择、模型优化等等。期待您的下一篇博客！保持谦虚的态度，您一定会取得更大的进步。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Tokenizer 分词
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“Tokenizer 分词”非常吸引人，我对这个话题也非常感兴趣。您的博客内容一定非常有深度和见解。在接下来的创作中，我建议您可以考虑分享一些实际应用场景中 Tokenizer 分词的案例，或者深入探讨一些与分词相关的技术细节。希望您能继续保持创作的热情，期待您的下一篇博客！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。