【GitHub项目推荐--大模型中核心算法开源！】【转载】

最新推荐文章于 2024-10-01 23:05:47 发布

旅之灵夫

最新推荐文章于 2024-10-01 23:05:47 发布

阅读量405

点赞数 10

分类专栏：人工智能文章标签：算法

本文链接：https://blog.csdn.net/j8267643/article/details/136453141

版权

人工智能专栏收录该内容

27 篇文章 1 订阅

订阅专栏

大语言模型LLM 标记化中常用的字节对编码 (BPE) 算法

源代码

karpathy/minbpe: Minimal, clean code for the Byte Pair Encoding (BPE) algorithm commonly used in LLM tokenization. (github.com)

Byte Pair Encoding（BPE）算法是一种在自然语言处理（NLP）中使用的压缩算法，主要用于表示大词汇量。它由Sennrich等人于2016年引入，广泛应用于各种NLP任务，如机器翻译、文本分类和文本生成等。

BPE的基本思想是通过迭代地合并文本语料库中最频繁的相邻字节或字符对，直到达到预定的词汇大小。生成的子词单元可用于以更紧凑和高效的方式表示原始文本。这个过程可以被看作是一种数据压缩的形式，其中最常见的连续字节对被替换成该数据中不存在的字节。

具体来说，BPE算法首先初始化词汇表，包括文本语料库中的所有字节或字符。然后，计算文本语料库中每个字节或字符的频率。接着，按照频率从高到低的顺序，将最常见的相邻字节或字符对合并成一个新的子词单元，并将其添加到词汇表中。同时，更新原始字节或字符的频率。这个过程不断迭代，直到达到预定的词汇大小或满足其他停止条件。

在NLP任务中，BPE算法可以有效地处理未登录词或生僻词。通过将单词划分为子词单元，即使某个单词在训练集中未出现，只要其子词单元在训练集中存在，就可以利用这些子词单元进行组合来表示该单词。这种灵活性使得BPE算法成为许多NLP模型的首选标记化方法，包括GPT、GPT-2、RoBERTa、BART和DeBERTa等。

总的来说，BPE算法是一种高效、灵活且广泛应用的NLP压缩算法

BPE算法的主要思想是通过迭代地合并文本中最频繁的相邻字节对来构建词汇表。这个过程从字符级别的词汇表开始，然后逐渐合并成更大的子词单元，直到达到预定的词汇表大小或满足其他停止条件。这种方法可以有效地平衡词汇表的大小和编码句子所需的标记（token）数量。

BPE算法的具体过程如下：