使用BPE算法处理未登录词

60 篇文章 1 订阅

BPE算法的输入是原始字典,其中每个单词被表示成一串字符,BPE算法迭代的执行k次,每次选择一个出现频率最高的符号对进行合并,生成一个新的符号,注意这种合并是不超过单词边界的。
例如原始词典中有张晨光张晨磊两个单词,频数均为3,但是没有出现张晨

张晨光:3
张晨磊:3

所以我们在使用最大匹配算法进行分词时,如果使用该字典,就会造成张晨被错误分割为两个词的情况,因为最大匹配算法无法正确处理未登录词:

max match cut result:
我/是/张/晨/,/我/爱/自然语言/处理

假设我们使用BPE算法时,k=1,并且第一次选中的符号对是(“张”,“晨”),那么我们将其合并后,会生成新的符号“张晨”,并且其出现的频数为6. 经过BPE算法处理后的词典中,将会包含原始词典中的单词和新生成的符号,那些没有合并的单字符符号也会包括其中,新的词典中会包括下面三个词:

张晨光:3
张晨磊:3
张晨:6

此时我们再使用最大匹配算法进行分词,并将经过BPE算法处理后新词典作为输入,我们就能得到正确的分词结果了(未登录词“张晨”被正确识别了):

max match cut(with BPE) result:
我/是/张晨/,/我/爱/自然语言/处理

BPE算法的核心代码如下:

def bpe(dic_of_words_with_space, num_merges):
    dic_to_merge = dic_of_words_with_space
    dic_merged = {}
    for i in range(num_merges):
        pairs = get_pair_stats(dic_of_words_with_space, char_separator=constants.space)
        # best_pair = max(pairs, key=pairs.get)
        best_pair = ("张", "晨")
        dic_merged = merge_vocab(best_pair, dic_to_merge)
        dic_to_merge = dic_merged
    return dic_merged

注意我们这里故意把best_pair设置成("张", "晨")以方便演示算法效果,其完整代码可以在我的github上下载.

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值