大语言模型语料库相关分词器的简单理解(以Unigram模型为例)

我们知道分词是大语言模型处理语料库的关键,分词器通常会影响下游任务的性能(参考:https://doi.org/10.48550/arXiv.2310.08754)。在《Tokenizer Choice For LLM Training: Negligible or Crucial?》文章中,作者有详细的介绍,他们认为Unigram模型比较适用于多语言模型的训练,对于下游任务的性能提升大概在2%左右。

在Unigram模型中,我们确实要考虑每个单词的所有可能分词。每个分词都是由一个或多个标记组成的,我们通过计算每个标记在整个语料库中出现的频率,将其作为该标记的概率。然后,对于每个得到的分词,我们将其中所有标记的概率相乘,得到该分词的概率。最后,我们选择概率最高的分词作为单词的分词标记。这就是Unigram模型的工作原理。说得比较拗,一个比较简单的例子说明一下:

假设我们有一个词汇表,其中包含以下单词及其出现的次数:

(“cat”, 10), (“bat”, 5), (“rat”, 12), (“hat”, 4), (“cats”, 5)

我们的词汇表可能包括"c", “a”, “t”, “b”, “r”, “h”, “s”, “ca”, “at”, “ba”, “ra”, “ha”, “ts”, “cat”, “bat”, “rat”, “hat”, "cats"等标记。

首先,我们需要计算每个标记的概率。这个概率是标记在语料库中出现的次数除以所有标记出现的总次数。例如ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值