使用BPE算法处理未登录词

最新推荐文章于 2024-05-16 20:02:45 发布

chansonzhang

最新推荐文章于 2024-05-16 20:02:45 发布

阅读量5.4k

点赞数 2

分类专栏： NLP AI 文章标签： Byte Pair Encoding BPE 未登录词分词词法分词

本文链接：https://blog.csdn.net/chansonzhang/article/details/84455505

版权

AI 同时被 2 个专栏收录

68 篇文章 2 订阅

订阅专栏

NLP

60 篇文章 1 订阅

订阅专栏

BPE算法的输入是原始字典，其中每个单词被表示成一串字符，BPE算法迭代的执行k次，每次选择一个出现频率最高的符号对进行合并，生成一个新的符号，注意这种合并是不超过单词边界的。
例如原始词典中有张晨光和张晨磊两个单词，频数均为3，但是没有出现张晨

张晨光:3
张晨磊:3

所以我们在使用最大匹配算法进行分词时，如果使用该字典，就会造成张晨被错误分割为张和晨两个词的情况，因为最大匹配算法无法正确处理未登录词：

max match cut result:
我/是/张/晨/，/我/爱/自然语言/处理

假设我们使用BPE算法时，k=1，并且第一次选中的符号对是（“张”，“晨”），那么我们将其合并后，会生成新的符号“张晨”，并且其出现的频数为6. 经过BPE算法处理后的词典中，将会包含原始词典中的单词和新生成的符号，那些没有合并的单字符符号也会包括其中，新的词典中会包括下面三个词：

张晨光:3
张晨磊:3
张晨:6

此时我们再使用最大匹配算法进行分词，并将经过BPE算法处理后新词典作为输入，我们就能得到正确的分词结果了（未登录词“张晨”被正确识别了）：

max match cut(with BPE) result:
我/是/张晨/，/我/爱/自然语言/处理

BPE算法的核心代码如下：

def bpe(dic_of_words_with_space, num_merges):
    dic_to_merge = dic_of_words_with_space
    dic_merged = {}
    for i in range(num_merges):
        pairs = get_pair_stats(dic_of_words_with_space, char_separator=constants.space)
        # best_pair = max(pairs, key=pairs.get)
        best_pair = ("张", "晨")
        dic_merged = merge_vocab(best_pair, dic_to_merge)
        dic_to_merge = dic_merged
    return dic_merged

注意我们这里故意把best_pair设置成("张", "晨")以方便演示算法效果，其完整代码可以在我的github上下载.

chansonzhang

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
使用BPE算法处理未登录词

BPE算法的输入是原始字典，其中每个单词被表示成一串字符，BPE算法迭代的执行k次，每次选择一个出现频率最高的符号对进行合并，生成一个新的符号，注意这种合并是不超过单词边界的。例如原始词典中有张晨光和张晨磊两个单词，频数均为3，但是没有出现张晨张晨光:3张晨磊:3所以我们在使用最大匹配算法进行分词时，如果使用该字典，就会造成张晨被错误分割为张和晨两个词的情况：max match cut...
复制链接

扫一扫