NLP中什么是span和token

最新推荐文章于 2025-03-05 15:12:35 发布

TerryBlog

最新推荐文章于 2025-03-05 15:12:35 发布

阅读量1.1w

点赞数 84

分类专栏： # NLP 文章标签： nlp 经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44853197/article/details/118654219

版权

NLP 专栏收录该内容

3 篇文章

订阅专栏

"本文介绍了自然语言处理中的基本概念——tokenization（分词）和span。tokenization是将文本分解为单词或词组的单位，例如在句子'我很开心'中，token为{'我', '很', '开心'}

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、token

        提到token，不得不提tokenization（分词）。分词就是将句子、段落、文章这类型的长文本，分解为以 字词（token） 为单位的数据结构。
        比方说，在句子 “我很开心” 中，利用中文分词得到的列表是 {“我”，“很”，“开心”}，列表中的每一个元素代表一个token。
        而论文中的token representation表达把文本分词后每个词表示成向量。

2、span

通常span指一个片段，如下图所示，span指的是位置4-5（包含）对应的 “开心” 的这个文本片段。
span
PS:有帮助可以点个赞支持一下博主么，谢谢~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TerryBlog 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。