深度学习中的token

最新推荐文章于 2024-03-16 01:22:53 发布

若雨999

最新推荐文章于 2024-03-16 01:22:53 发布

阅读量532

点赞数

文章标签：深度学习人工智能

token包含：class token、patch token，在NLP叫每一个单词为token，然后有一个标注句子语义的标注是CLS，在CV中就是把图像切割成不重叠的patch序列（其实就是token）。

Tokenization is a way of separating a piece pf text into smaller units called tokens.And tokens are the building blocks of Natural Language,which can be either words, characters, or subwords.
举个例子，“Never give up”，Tokenization 成words tokens：Never-give-up。
再举个例子，“smarter”，characters tokens：s-m-a-r-t-e-r ；subword tokens：smart-er。

在大型语言模型中，"token"是指文本中的一个最小单位。通常，一个token可以是一个单词、一个标点符号、一个数字、一个符号等。在自然语言处理中，tokenization是将一个句子或文本分成tokens的过程。

在大型语言模型的训练和应用中，模型接收一串tokens作为输入，并尝试预测下一个最可能的token。对于很多模型来说，tokens还可以通过embedding操作转换为向量表示，以便在神经网络中进行处理。由于大型语言模型处理的文本非常大，因此对于处理速度和内存占用等方面的考虑，通常会使用特定的tokenization方法，例如基于字节对编码（byte-pair encoding，BPE）或者WordPiece等算法。

世界被字节化以后，再次会被 token化

在NLP比如BERT，输入一段句子，分词器会将句子中的单词、符号转换成一个个token。对于视觉Transformer，把每个像素看作是一个token的话并不现实，因为一张224x224的图片铺平后就有4万多个token，计算量太大了，BERT都限制了token最长只能512。所以ViT把一张图切分成一个个16x16的patch（具体数值可以自己修改）每个patch看作是一个token，这样一共就只有（224/16）*(224/16)=196个token了。当然了，单单的切分还不够，还要做一个线性映射+位置编码等等。不同的Transformer在处理细节上也会有不同，比如最近看的Swin-T加入了多尺度，从最开始的4*4的patch缩放到后边的32*32

————————————————
版权声明：本文为CSDN博主「风雨眠」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_46703208/article/details/130539464

若雨999

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的token

由于大型语言模型处理的文本非常大，因此对于处理速度和内存占用等方面的考虑，通常会使用特定的tokenization方法，例如基于字节对编码（byte-pair encoding，BPE）或者WordPiece等算法。通常，一个token可以是一个单词、一个标点符号、一个数字、一个符号等。token包含：class token、patch token，在NLP叫每一个单词为token，然后有一个标注句子语义的标注是CLS，在CV中就是把图像切割成不重叠的patch序列（其实就是token）。
复制链接

扫一扫