LLM学习

最新推荐文章于 2024-09-12 20:16:16 发布

kjlh

最新推荐文章于 2024-09-12 20:16:16 发布

阅读量351

点赞数 5

文章标签：学习

本文链接：https://blog.csdn.net/qq_46668849/article/details/135322844

版权

本文介绍了SentencePiece分词器在大语言模型SFT中的应用，比较了word、character和subword粒度分词的优缺点，特别关注了BPE、BBPE、WordPiece和UnigramLM等子词算法。

摘要由CSDN通过智能技术生成

大语言模型SFT

分词器-SentencePiece

预备知识

什么是分词器？字符序列转化为数字序列，对应模型的输入
三种粒度：word/char/subword

word: 如: Today is sunday. 则根据空格或标点进行分割[today, is, sunday, .]
character：按照单字符进行分词，就是以char为最小粒度。如：Today is sunday. 则会分割成[t， o， d，a，y， … ，s，u，n，d，a，y， .]
subword：按照词的subword进行分词。如：Today is sunday. 则会分割成[to， day，is ， s，un，day， .]

对于word粒度分词：

优点：词的边界和含义得到保留；
缺点：1）词表大，稀有词学不好；2）OOV（可能超出词表外的词）；3）无法处理单词形态关系和词缀关系，会将两个本身意思一致的词分成两个毫不相同的ID，在英文中尤为明显，如：cat， cats。
对于character粒度分词：

对于char粒度分词：
优点：词表极小，比如：26个英文字母几乎可以组合出所有词，5000多个中文常用字基本也能组合出足够的词汇；
缺点：1）无法承载丰富的语义，英文中尤为明显，但中文却是较为合理，中文中用此种方式较多。2）序列长度大幅增长；

最后为了平衡以上两种方法，又提出了基于 subword 进行分词：它可以较好的平衡词表大小与语义表达能力；常见的子词算法有Byte-Pair Encoding (BPE) / Byte-level BPE（BBPE）、Unigram LM、WordPiece、SentencePiece等。

BPE:即字节对编码。其核心思想是从字母开始，不断找词频最高、且连续的两个token合并，直到达到目标词数。
BBPE：BBPE核心思想将BPE的从字符级别扩展到子节（Byte）级别。BPE的一个问题是如果遇到了unicode编码，基本字符集可能会很大（65536字符）。BBPE就是以一个字节为一种“字符”，不管实际字符集用了几个字节来表示一个字符。基础字符集的大小就锁定在了256（2^8）。采用BBPE的好处是可以跨语言共用词表，显著压缩词表的大小。而坏处就是，对于类似中文这样的语言，一段文字的序列长度会显著增长。因此，BBPE based模型可能比BPE based模型表现的更好。然而，BBPE sequence比起BPE来说略长，这也导致了更长的训练/推理时间。BBPE其实与BPE在实现上并无大的不同，只不过基础词表使用256的字节集。
WordPiece：WordPiece算法可以看作是BPE的变种。不同的是，WordPiece基于概率生成新的subword而不是下一最高频字节对。WordPiece算法也是每次从词表中选出两个子词合并成新的子词。BPE选择频数最高的相邻子词合并，而WordPiece选择使得语言模型概率最大的相邻子词加入词表。
Unigram：它和 BPE 以及 WordPiece 从表面上看一个大的不同是，前两者都是初始化一个小词表，然后一个个增加到限定的词汇量，而 Unigram Language Model 却是先初始一个大词表，接着通过语言模型评估不断减少词表，直到限定词汇量。
SentencePiece：SentencePiece它是谷歌推出的子词开源工具包，它是把一个句子看作一个整体，再拆成片段，而没有保留天然的词语的概念。一般地，它把空格也当作一种特殊字符来处理，再用BPE或者Unigram算法来构造词汇表。SentencePiece除了集成了BPE、ULM子词算法之外，SentencePiece还能支持字符和词级别的分词.