Search Engine
文章平均质量分 76
lalalalala
这个作者很懒,什么都没留下…
展开
-
基于词表的分词——最大匹配(MM)
这是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则,即“长词优先”原则,来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分错误。这种切分方法,需要最少的语言资源(仅需一个词表,不需要任何词法、句法、语义知识),程序实现简单,开发周期短,是一个简单实用的方法。 下面是一个简单的MM算法Python实现: 1 #{entry1:原创 2006-05-12 12:46:00 · 1402 阅读 · 0 评论 -
基于词表的切词——最短路径方法
最短路径方法的目的是使得分词后得到的词最少,实现的方法是从句子中匹配出所有在词表中的词,以词为边(边的权重为1)、词与词的间隔(切分点)为节点构造出一个有向无环图(DAG),有唯一的起点(句子的开始)和唯一的终点(句子的结束),找到一条最短路径,即切分最少。 和正向最大匹配一样最短路径方法只需要一个词表即可进行切词,但得到的结果要更好,主要原因是考虑到了上下文的衔接性,把切分过程从一维原创 2006-05-12 12:48:00 · 2065 阅读 · 0 评论