AI语言处理的双刃剑：Tokens令牌化技术解析

喜好儿网

于 2024-07-08 17:07:01 发布

阅读量165

点赞数 6

文章标签：人工智能

本文链接：https://blog.csdn.net/heehelcom/article/details/140273704

版权

生成式人工智能模型，如GPT-4o，采用基于Transformer架构的复杂处理方式，这与人类处理文本的方式存在明显差异。这些模型依赖于一种称为“令牌化”的过程，将文本分解为更小的片段，称为“令牌”，以便更有效地处理信息。然而，这种令牌化过程也带来了一系列挑战和局限性。

令牌可以是单词、音节，甚至是单词中的单个字符，具体取决于所使用的分词器。这种分词方式使得模型能够在有限的上下文窗口内获取更多信息，但同时也可能引入偏见。例如，分词器可能会错误地将具有相同含义的短语“once Upon a time”和“once Upon a”编码为不同的令牌序列，导致模型产生不同的响应。

此外，分词器对大小写的处理也存在差异，这可能导致模型无法正确识别和处理大小写敏感的文本。这种局限性在非英语语言中尤为突出，因为许多语言并不使用空格来分隔单词，而分词器通常假设句子中的空格表示新单词。牛津大学2023年的研究发现，非英语语言任务的完成时间可能是英语任务的两倍，而且使用“代币效率”较低的语言的用户可能会面临更差的性能和更高的使用成本。

喜好儿网

谷歌DeepMind AI研究员Yennie Jun的分析进一步揭示了不同语言的标记化及其对下游任务的影响。某些语言可能需要多达10倍的标记才能在英语中捕获相同的含义，这不仅加剧了语言不平等，也解释了为什么当前的模型在处理数学问题时表现不佳。

数字的不一致标记化是另一个问题，分词器可能会破坏数字和方程中的关系，导致模型难以理解重复的数字模式和上下文。为了解决这些问题，一些研究者正在探索如MambaByte这样的“字节级”状态空间模型，它们可以处理更多的数据，消除标记化带来的问题，同时保持性能。

尽管如此，这些新型模型仍处于早期研究阶段，而目前对于Transformer模型来说，直接查看字符而不进行标记化在计算上是不可行的。因此，除非在标记化技术上取得突破，否则开发新的模型架构将是推动生成式人工智能发展的关键。

喜好儿网

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
AI语言处理的双刃剑：Tokens令牌化技术解析

牛津大学2023年的研究发现，非英语语言任务的完成时间可能是英语任务的两倍，而且使用“代币效率”较低的语言的用户可能会面临更差的性能和更高的使用成本。令牌可以是单词、音节，甚至是单词中的单个字符，具体取决于所使用的分词器。为了解决这些问题，一些研究者正在探索如MambaByte这样的“字节级”状态空间模型，它们可以处理更多的数据，消除标记化带来的问题，同时保持性能。某些语言可能需要多达10倍的标记才能在英语中捕获相同的含义，这不仅加剧了语言不平等，也解释了为什么当前的模型在处理数学问题时表现不佳。
复制链接

扫一扫