ICTCLAS分词系统研究（五）--N最短路径

最新推荐文章于 2019-05-17 08:58:55 发布

sinboy

最新推荐文章于 2019-05-17 08:58:55 发布

阅读量1.6w

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言文章标签：数据结构算法 blog

本文链接：https://blog.csdn.net/sinboy/article/details/745498

本文介绍了ICTCLAS分词系统采用的N最短路径算法，该算法结合最短路径和最大路径的优点，寻找前N条最优路径，以提高分词的准确性和效率。通过二叉分词图表表示词组耦合关系，并利用Dijkstra算法的变体进行求解。详细过程包括记录每个节点的N个前驱、权重计算以及使用队列进行排序。以实例解析了分词过程，最终得到最短路径并形成分词结果。

ICTCLAS和别的分司系统不一样的地方就是于--N最短路径分词算法。所谓N最短路径其实就是最短路径和最大路径的折中，保留前N个最优路径。这样做的目的就是对这两种方法取长补短，既能达到一个比较理解的分词不达意效果，又能保证分词不达意速度。在此处，我们中国人的中庸思想被完美体现：）。

在N－最短路径求解之前，ICTCLAS首先通过二叉分词图表（邻接表，如下图一所示）表示出了每个词组之间的耦合关系，每一个节点都表示分词图表中的一条边，它的行值代表边的起点（前驱），它的列值代表边的终点（后驱），这一点务必弄清楚。可以通过图一、图二相结合对照来理解。通过计算词组之间的耦合关系，来最终确定初次的分词路径。我们都知道Dijkstra算法是求源点到某一点的最短路径，也就是最优的那一条，在此处的N－最短路径指的是找出前N条最优的路径（实际上在FreeICTCLAS的源代码当中N是等于1的，即nValueKind==1）。按照Dijkstra的表示方法把二叉分词图表转化成图二的表示形式，就能比较清楚地看出来，求解的过程实际就是求源点0到终于12的最短路径，和纯粹的Dijkstra算法不同的地方是在此处需要记录每个节点的N个前驱，Dijkstra当中记录一个即可。