中文句子的词分割算法:MaxMatch

原创 2018年04月15日 21:37:13

今天阅读的时候,发现了一个分割句子中词语的算法:MaxMatch,这个算法在中文应用中效果很好。

这是一个贪心算法,在指定的字典(dictionary)中查找词汇并进行句子的分割。

下面是一个应用本算法的例子:

Input: 他特别喜欢北京烤鸭

Output: 他 特别 喜欢 北京烤鸭

算法的伪代码如下:


这个算法在中文的应用中比英文好很多,因为中文词汇比英文短。

为了检验词汇分割的效果,我们可以使用词语错误率(word error rate)来衡量。

上述的算法是传统的算法。目前准确率最高的中文词汇分割算法是通过监督机器学习(supervised machine learning)训练的统计序列模型(statistical sequence model),这个我们以后再写文章详细讨论。

Python自然语言处理:词干、词形与MaxMatch算法

自然语言处理中一个很重要的操作就是所谓的stemming 和 lemmatization,二者非常类似。它们是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。基于贪婪策略...
  • baimafujinji
  • baimafujinji
  • 2016-04-06 18:47:59
  • 8976

机器生成中文句子

自然语言处理有两种基本的方法:基于规则和基于统计。 马尔可夫统计模型在自然语言处理中被广泛的应用。马尔可夫链 由俄国数学家马尔可夫提出,利用条件概率对语言建立数学模型, 最初马尔可夫用它分析普希...
  • leeshuheng
  • leeshuheng
  • 2010-11-23 09:28:00
  • 1786

分割句子

#includeint split(char text[], char* parts[]) { int count = 0; // 分段的个数 int start = 0; //...
  • lamch_K
  • lamch_K
  • 2017-07-11 15:45:24
  • 389

中文文本关键字分割算法

这几天为Gimi Talk研究中文的分词,主要问题是要消除歧义的关键字,如何分割的问题。 参看了几篇文章,例句:长春市长春药店 1.查找所有有效词(起始位置和词长): 长春(0,...
  • wingbywings
  • wingbywings
  • 2012-04-27 13:47:17
  • 1363

句子相似度计算

如何计算句子的语义相似度,很容易想到的是向量空间模型(VSM)和编辑距离的方法,比如A:“我爸是李刚”,B:“我儿子是李刚”,利用VSM方法A(我,爸,是,李刚)B(我,儿子,是,李刚),计算两个向量...
  • amblue
  • amblue
  • 2011-04-25 16:20:00
  • 10506

句子分割 保留标点符号

/** * 根据标点符号进行句子拆分,并且保留句子结尾符号 * */ public String[] splitSentence(String cmt){ /*正则表达式:句子结束...
  • glory1234work2115
  • glory1234work2115
  • 2017-02-22 02:04:04
  • 669

基于词的编辑距离文本相似度计算

分词结果放在list里面 //基于词的编辑距离计算         public static float levenshtein(ArrayList listfirst, ArrayList...
  • lb521200200
  • lb521200200
  • 2016-12-15 18:30:45
  • 556

【转】基于统计的词网格分词

       词网格分词方法是基于统计的方法,它具有比较高的分词正确率,而且可以比较容易的进行扩展。可以通过加入相应的统计信息来扩展不同的功能。     基于词网格分词的第一步是候选词网格构造:利用词...
  • lengyuhong
  • lengyuhong
  • 2010-11-19 14:17:00
  • 2845

中文的表达 —— 句式、段落、结构(逻辑)

1. 连词 承上启下如何做到,比如当前段说的是 A,下一段说的是 B,现在要进行承上启下,从主题 A 过渡到主题 B, 承上启下做的就是 A、B 之间的桥梁工作; 所谓桥梁,就是上下主题之间的共性;...
  • lanchunhui
  • lanchunhui
  • 2016-12-13 21:32:34
  • 219

中文句子相似度计算思路

这里主要面向初学者介绍句子相似度目前主流的研究方向
  • fox801501
  • fox801501
  • 2015-05-07 10:55:06
  • 4292
收藏助手
不良信息举报
您举报文章:中文句子的词分割算法:MaxMatch
举报原因:
原因补充:

(最多只允许输入30个字)