AI语言处理的双刃剑:Tokens令牌化技术解析

生成式人工智能模型,如GPT-4o,采用基于Transformer架构的复杂处理方式,这与人类处理文本的方式存在明显差异。这些模型依赖于一种称为“令牌化”的过程,将文本分解为更小的片段,称为“令牌”,以便更有效地处理信息。然而,这种令牌化过程也带来了一系列挑战和局限性。

令牌可以是单词、音节,甚至是单词中的单个字符,具体取决于所使用的分词器。这种分词方式使得模型能够在有限的上下文窗口内获取更多信息,但同时也可能引入偏见。例如,分词器可能会错误地将具有相同含义的短语“once Upon a time”和“once Upon a”编码为不同的令牌序列,导致模型产生不同的响应。

此外,分词器对大小写的处理也存在差异,这可能导致模型无法正确识别和处理大小写敏感的文本。这种局限性在非英语语言中尤为突出,因为许多语言并不使用空格来分隔单词,而分词器通常假设句子中的空格表示新单词。牛津大学2023年的研究发现,非英语语言任务的完成时间可能是英语任务的两倍,而且使用“代币效率”较低的语言的用户可能会面临更差的性能和更高的使用成本。

喜好儿网

谷歌DeepMind AI研究员Yennie Jun的分析进一步揭示了不同语言的标记化及其对下游任务的影响。某些语言可能需要多达10倍的标记才能在英语中捕获相同的含义,这不仅加剧了语言不平等,也解释了为什么当前的模型在处理数学问题时表现不佳。

数字的不一致标记化是另一个问题,分词器可能会破坏数字和方程中的关系,导致模型难以理解重复的数字模式和上下文。为了解决这些问题,一些研究者正在探索如MambaByte这样的“字节级”状态空间模型,它们可以处理更多的数据,消除标记化带来的问题,同时保持性能。

尽管如此,这些新型模型仍处于早期研究阶段,而目前对于Transformer模型来说,直接查看字符而不进行标记化在计算上是不可行的。因此,除非在标记化技术上取得突破,否则开发新的模型架构将是推动生成式人工智能发展的关键。

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值