Python前向最大匹配、后项最大匹配、双向最大匹配

下面是前向最大匹配、后项最大匹配和双向最大匹配的具体实现,使用的是python。

class WordSeg(object):
    def __init__(self, dic):
        self.dic = dic
        self.window_size = len(max(dic, key=len, default=''))

    def forward_max_match(self, text):
        fmm_result = []
        index = 0
        text_length = len(text)
        piece = ''
        while index < text_length:
            for size in range(self.window_size + index, index, -1):
                piece = text[index:size]
                if piece in self.dic:
                    index = size - 1
                    break
            index += 1
            fmm_result.append(piece)
        return fmm_result

    def backward_max_match(self, text):
        bmm_result = []
        index = len(text)
        piece = ''
        while index > 0:
            for size in range(index - self.window_size, index):
                piece = text[size:index]
                if piece in self.dic:
                    index = size + 1
                    break
            index -= 1
            bmm_result.append(piece)
        bmm_result.reverse()
        return bmm_result

    def bi_directional_max_match(self, text):
        fmm_list = self.forward_max_match(text)
        bmm_list = self.backward_max_match(text)
        if len(fmm_list) != len(bmm_list):
            return fmm_list if len(fmm_list) < len(bmm_list) else bmm_list
        else:
            is_same = True
            fmm_single = 0
            bmm_single = 0
            for i in range(0, len(fmm_list)):
                if fmm_list[i] != bmm_list[i]:
                    is_same = False
                if len(fmm_list[i]) == 1:
                    fmm_single += 1
                if len(bmm_list[i]) == 1:
                    bmm_single += 1
            if is_same:
                return fmm_list
            else:
                return fmm_list if fmm_single < bmm_single else bmm_list
dic = ['研究', '研究生', '生命', '命', '的', '起源']
text = '研究生命的起源'
print('分词前的句子:', text)
wordSeg = WordSeg(dic)
fmm_result = wordSeg.forward_max_match(text)
print('前向最大匹配:', fmm_result)
bmm_result = wordSeg.backward_max_match(text)
print('后向最大匹配:', bmm_result)
bdmm_result = wordSeg.bi_directional_max_match(text)
print('双向最大匹配:', bdmm_result)

结果:

分词前的句子: 研究生命的起源
前向最大匹配: ['研究生', '命', '的', '起源']
后向最大匹配: ['研究', '生命', '的', '起源']
双向最大匹配: ['研究', '生命', '的', '起源']

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值