MMSEG分词算法

       最近在研究文本挖掘相关工具和知识,在对文档(文本文件、Word文件、网页等)能够进行全文检索或数据挖掘前,需要首先进行预处理,使之能够成为相对标准的基础数据,“分词”(Word Segmentation)是进行文档预处理过程中的一项重要工作,特别是对中文,由于中文与英文不同,中文只是字、句和段能通过明显的分界符来简单划界,但是词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。因此成功地进行中文分词,是实现计算机自动识别语句含义的基础。

      关于中文分词的研究在30多年前就已经开展,大陆、台湾、新加坡等地区的研究人员均提出了不同的分词方法并且相互借鉴,比较有影响并且在目前获得较多应用的是台湾蔡志浩于1996发表的“MMSEG: A  Word Identification System for Mandarin Chinese Text Based on Two Variants of  the Maximum Matching Algorithm”,此方法(原文称之为系统,这里以解决方法代之)影响很广并且有多种语言的实现,因此对于有志于研究中文分词方面知识或者开发相关产品的同志们具有很好的借鉴意义,下面是我对这个方法的基本理解,可能还存在偏差,与大家共飨!

     1、解决方法组成

       在原文中,指出“The system consisted of  a lexicon, two matching algorithms, and four ambiguity resolution  rules ”,即系统由一个词典、两个匹配算法和四个歧义消除规则组成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值