考虑到汉语分词存在切分歧义消除和未登录词识别两个主要问题,因此,有专家将分词分成两个阶段:1.用分词算法进行粗分2.对粗分的最好结果进行歧义消除和未登录词识别。
最短路径法是一种自动分词的算法。它将一句话中的字元视为节点,先找出该句子中存在的所有词语,一个词语的两端:词尾字元和词之前一个字之间视为具有连接。(连接权值可以全为1,或者根据语料库中的词频取对数附加权值。)找出从句子头到尾字元中间的最短路径,便完成了分词。
N最短路径是在头到尾所有可能的路径中找出前N个最短路径。也就是N种分词结果作为粗分结果集。
最短路径的求解算法:
Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论,运筹学等等。注意该算法要求图中不存在负权边。