BPE的原理及代码解析

BPE:在自然语言处理中,序列到序列模型中(机器翻译、对话)需要设置词表,使用较小的词表,有助于提高系统的性能。BPE在欧洲语系可能表现的更为有效一些,主要由于欧洲语系中存在词缀等概念。

BPE训练
BPE的训练和解码范围都是一个词的范围。
BPE的训练和解码范围都是一个词的范围。
BPE的训练和解码范围都是一个词的范围。
BPE的大概训练过程:首先将词分成一个一个的字符,然后在词的范围内统计字符对出现的次数,每次将次数最多的字符对保存起来,直到循环次数结束。

###BPE编码
解码过程,经过训练过程,会得到codec文件,codec文件中保存的就是训练过程的字符对,文件中最开始的是训练时最先保存的字符,即具有较高的优先级。
解码是也是按在词的范围中进行编码的,首先将词拆成一个一个的字符,然后按照训练得到的codec文件中的字符对来合并。

###BPE代码解析:
哎,还是老习惯,先占个位置。

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值