中文分词技术--规则分词

本文介绍了中文分词中的三种规则分词方法:正向最大匹配法、逆向最大匹配法和双向最大匹配法。正向匹配从文档开头进行匹配,逆向匹配从文档末尾开始,双向匹配结合两者优点,选择分词数量最少的结果。规则分词虽然简单高效,但面临词典维护的挑战,难以覆盖所有词汇。
摘要由CSDN通过智能技术生成

规则分词一般有正向最大匹配法,逆向最大匹配法和双向最大匹配法

       

  • 正向最大分词法(Maximum Match Method,MM法)

基本思想:假定分词词典中最长词有i个字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样一个词,则匹配成功,匹配字段被作为一个词被切分出来。如果字典中找不到这样一个词,则匹配失败,将匹配字段的最后一个字去掉,对剩下的字串重复上述步骤,如此直到匹配成功。这样就完成一轮匹配,继续选取下一个i字词,进行匹配。

例:

class MM(object):
    def __init__(self):
        self.window_size = 3
    def cut(self,text):
        result=[]
        index=0
        text_length = len(text)
        dic = ['在','事故','中','失踪','的','士兵','已经','死亡']
        while text_length > index:
            for size in range(self.window_size+index,index,-1):
                piece = text[index:size]
                if piece in dic:
                    index = size-1
                    break
    
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值