[转载] NLP和CV中的token分别是啥

氵文大师

已于 2024-03-16 01:23:27 修改

阅读量1.2k

点赞数 2

文章标签：自然语言处理人工智能

于 2024-03-16 01:22:53 首次发布

原文链接：https://blog.csdn.net/HaoZiHuang/article/details/136753067

版权

本文介绍了自然语言处理(NLP)中token的分词和词嵌入过程，以及视觉Transformer如何将图像划分为token并进行处理。重点讨论了词向量模型如Word2Vec和GloVe，以及它们在NLP任务中的应用。同时，对比了NLP和视觉领域中token的不同之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. NLP中

在自然语言处理(NLP)领域,令牌(token)通常指经过分词(tokenization)处理后得到的最小语义单元。具体来说:

对于英文等语言,token通常是单词(word)或子词(subword)。例如"I love NLP!"可以分词为["I", "love", "NLP", "!"]这4个token。
对于中文,token可以是单个汉字、词语或子词。如"我爱自然语言处理!"可分词为["我","爱","自然语言","处理","!"]这5个token。

大多数NLP模型都是以token为单位来处理输入文本的。Transformer类模型通常把输入token序列映射为向量,然后对token向量序列进行各种变换和计算。

一些常见的英文分词器有空格分词、Moses、Byte Pair Encoding (BPE)、WordPiece、SentencePiece等。对于中文,常用的有jieba、THULAC、PKUSEG、BPE、WordPiece等。

在NLP中,token本身并不是向量,而是文本序列中的基本单元,如单词、子词或字符。token只是一个离散的符号,并没有直接的数值表示。

然而,为了让机器学习模型能够处理这些离散的token,通常需要将它们转换为数值向量,这个过程就是词嵌入(word embedding)。常见的词嵌入方法有:

One-hot编码:将每个token映射为一个高维稀疏向量,向量维度等于词表大小,只有对应token的位置为1,其余位置为0。
Word2Vec:通过浅层神经网络,在大规模语料库上训练出dense的词向量,使得语义相似的词有相近的向量表示。
GloVe:基于全局词频统计,通过矩阵分解的方法学习词向量,同样使得语义相似的词有相近的向量表示。

在实际的NLP应用中,通常使用预训练的词向量作为编码token的起点,然后在特定任务上进行微调。因此,虽然token本身只是离散符号,但它们最终都要转换为数值向量,以供机器学习模型处理。这也是NLP中"embedding"这一概念的由来。

2. CV中

token是构成NLP模型输入的基本单元，在视觉 Transformer 中, token的概念与NLP领域有所不同,但本质上仍然是将输入数据划分为一系列离散的单元。具体来说:

在视觉 Transformer 中,图像通常被划分为一系列的图像块(image patch),每个图像块被视为一个token。例如,如果一幅图像的分辨率为 $\times W$ ,划分的图像块大小为 $\times P$ ,则可以得到 $\frac{H}{P} \times \frac{W}{P}$ 个图像块,即 $\frac{HW}{P^2}$ 个token。