Python实现——实现逆向最大匹配分词算法，即从右向左扫描，找到最长的词并切分。

最新推荐文章于 2023-04-14 19:58:03 发布

Gravitas

最新推荐文章于 2023-04-14 19:58:03 发布

阅读量1.4k

点赞数

分类专栏： python 文章标签： python 自然语言处理 nlp

本文链接：https://blog.csdn.net/Gravitas/article/details/107534588

版权

python 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

题目内容：
实现逆向最大匹配分词算法，即从右向左扫描，找到最长的词并切分。如句子“研究生命的起源”，逆向最大匹配分词算法的输出结果为“研究生命的起源”。

输入格式:
第一行是以utf-8格式输入的词表，每个词之间以空格分隔。
接下来是若干行以utf-8格式输入的中文句子。

输出格式：
以utf-8格式输出的逆向最大匹配的分词结果，每个词之间使用空格分隔。每个输入对应一行输出。

输入样例：
你我他爱北京天安门研究研究生命生命的起源
研究生命的起源
我爱北京天安门

输出样例：
研究生命的起源
我爱北京天安门

注：以下是Python3.8的代码实现，如果要用Py2实现需要作相应修改。

#字典生成
def load_dic(s):
    words=s.split()
    word_dic=set()
    max_length=1
    for word in words:
        word_dic.add(word)
        if len(word)>max_length:
            max_length=len(word)
    return max_length, word_dic

#逆向最大匹配分词
def fmm_word_seg(sentence, word_dic, max_length):
    end=len(sentence)
    words=[]
    while end>0:
        for begin in range(max(end-max_length, 0),end):
            word=sentence[begin:end]
            if word in word_dic or end==begin+1:
                words.append(word)
                break
        end=begin
    return words

max_len, word_dic=load_dic(input())
for line in sys.stdin:
    words=fmm_word_seg(line, word_dic, max_len)
    for i in range(len(words)-1,0,-1):
        print (words[i],end=' ')
    print (words[0])

亦可参考博客：中文分词

Gravitas

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python实现——实现逆向最大匹配分词算法，即从右向左扫描，找到最长的词并切分。

题目内容：实现逆向最大匹配分词算法，即从右向左扫描，找到最长的词并切分。如句子“研究生命的起源”，逆向最大匹配分词算法的输出结果为“研究生命的起源”。输入格式:第一行是以utf-8格式输入的词表，每个词之间以空格分隔。接下来是若干行以utf-8格式输入的中文句子。输出格式：以utf-8格式输出的逆向最大匹配的分词结果，每个词之间使用空格分隔。每个输入对应一行输出。输入样例：你我他爱北京天安门研究研究生命生命的起源研究生命的起源我爱北京天安门输出样例：研究
复制链接

扫一扫

专栏目录