自然语言处理——分词系统(双向最大匹配)

算法分析

双向最大匹配,顾名思义就是将正向最大匹配和逆向最大匹配结合在一起
具体算法,详见正向最大匹配
将而二者得到的结果进行比较
1.如果正反向分词结果词数不同,则取分词数量较少的那个。
2.如果分词结果词数相同
.a.分词结果相同,就说明没有歧义,可返回任意一个。
.b.分词结果不同,返回其中单字较少的那个。

代码实现

BMM.py

#实现切词方法
def cut_words(raw_sentence, words_dic):
    #找到最大词的长度
    max_length = max(len(word) for word in words_dic)
    sentence = raw_sentence.strip()
    words_length = len(sentence)
    #存储切分好的分词
    cut_words = []
    #开始切分
    while words_length > 0:
        #求算每次切分的长度
        max_cut_length = min(words_length, max_length)
        #切分出一个子串,从右侧切分
        subSentence = sentence[-max_cut_length:]
        #切分一轮,在左侧删去一个字符 每成功匹配一次就进行break
        while max_cut_length > 0:
            #成功匹配一个分词
            if subSentence in words_dic:
                cut_words.append(subSentence)
                break
            #只剩下一个字
            elif max_cut_length == 1:
                cut_words.append(subSentence)
                break
            #都不符合,从左侧去掉一个词,长度减一,继续循环
            else:
                max_cut_length -= 1
                subSentence = subSentence[-max_cut_length:]
        #将切掉的单词(后侧)删去,将切掉的长度减去
        sentence = sentence[0:-max_cut_length]
        words_length -= max_cut_length
    cut_words.reverse()
    #words = '/'.join(cut_words)
    return cut_words

FMM.py


#实现正向最大匹配法
def cut_words(raw_sentence, words_dic):
    #统计词典种最长的词(若小于待切分总长度,则每次从未匹配处找这么长的字符串开始匹配)
    max_length = max(1, 3)   #len(word) for word in words_dic
    sentence = raw_sentence.strip()   #移除字符串内的空格
    #统计序列长度
    words_length = len(sentence)
    #存储切分好的词语
    cut_word_list = []
    while words_length > 0:
        max_cut_length = min(max_length, words_length)
        subSentence = sentence[0 : max_cut_length]
        #进行一轮分词,在左侧切出一个词
        while max_cut_length > 0:
            if subSentence in words_dic:  #若待切分的词在词典中,则将其加入已分列表,跳出循环
                cut_word_list.append(subSentence)
                break
            elif max_cut_length == 1:   #剩下单个字,将其切分,并跳出循环
                cut_word_list.append(subSentence)
                break
            else:     #都不符合则从右侧去掉一个词,重新分词
                max_cut_length = max_cut_length - 1
                subSentence = subSentence[0 : max_cut_length]
        #将切掉的单词删去
        sentence = sentence[max_cut_length:]
        words_length = words_length - max_cut_length
    #words = "/".join(cut_word_list)
    #为了配合双向匹配
    return cut_word_list

BIMM.py

import FMM
import BMM

words_dic = []

def init():
    """
    读取词典文件
    载入词典
    :return:
    """
    #with as 的用法噶
    with open("dict.txt", encoding="utf8") as dic_input:
        for word in dic_input:
            words_dic.append(word.strip())

#实现双向最大匹配法   正反相同返回分次数少的那个
def cut_words(raw_sentence, word_dic):
    bmm_word_list = BMM.cut_words(raw_sentence, word_dic)
    fmm_word_list = FMM.cut_words(raw_sentence, word_dic)
    bmm_size = len(bmm_word_list)
    fmm_size = len(fmm_word_list)
    #分词结果数不同
    if bmm_size != fmm_size:
        if bmm_size < fmm_size:
            return bmm_word_list
        else:
            return fmm_size
    #分词结果数相同,1.结果相同,无歧义,返回任意一个  2。结果不同,返回单字少的那个
    else:
        Fsingle = 0
        Bsingle = 0
        isSame = True
        for i in range(bmm_size):
            #分词结果不同
            if bmm_word_list[i] != fmm_word_list[i]:   # not in也可以
                isSame = False
            #统计单个词的数量
            if len(bmm_word_list[i]) == 1:
                Bsingle += 1
            if len(fmm_word_list[i]) == 1:
                Fsingle += 1
        if isSame == True:
            return bmm_word_list
        #分词结果不同选词数少的一个
        else:
            if Fsingle >= Bsingle:
                return bmm_word_list
            else:
                return fmm_word_list

def main():
    """
    于用户交互接口
    :return:
    """
    init()
    while True:
        print("请输入您要分词的序列")
        input_str = input()
        if not input_str:
            break
        result = cut_words(input_str, words_dic)
        result = '/'.join(result)
        print("分词结果:")
        print(result)
if __name__ == '__main__':
    main()




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值