BPE:在自然语言处理中,序列到序列模型中(机器翻译、对话)需要设置词表,使用较小的词表,有助于提高系统的性能。BPE在欧洲语系可能表现的更为有效一些,主要由于欧洲语系中存在词缀等概念。
BPE训练
BPE的训练和解码范围都是一个词的范围。
BPE的训练和解码范围都是一个词的范围。
BPE的训练和解码范围都是一个词的范围。
BPE的大概训练过程:首先将词分成一个一个的字符,然后在词的范围内统计字符对出现的次数,每次将次数最多的字符对保存起来,直到循环次数结束。
###BPE编码
解码过程,经过训练过程,会得到codec文件,codec文件中保存的就是训练过程的字符对,文件中最开始的是训练时最先保存的字符,即具有较高的优先级。
解码是也是按在词的范围中进行编码的,首先将词拆成一个一个的字符,然后按照训练得到的codec文件中的字符对来合并。
###BPE代码解析:
哎,还是老习惯,先占个位置。