中文分词之最短路径法和N最短路径

考虑到汉语分词存在切分歧义消除和未登录词识别两个主要问题,因此,有专家将分词分成两个阶段:1.用分词算法进行粗分2.对粗分的最好结果进行歧义消除和未登录词识别。

最短路径法是一种自动分词的算法。它将一句话中的字元视为节点,先找出该句子中存在的所有词语,一个词语的两端:词尾字元和词之前一个字之间视为具有连接。(连接权值可以全为1,或者根据语料库中的词频取对数附加权值。)找出从句子头到尾字元中间的最短路径,便完成了分词。

N最短路径是在头到尾所有可能的路径中找出前N个最短路径。也就是N种分词结果作为粗分结果集。


最短路径的求解算法:

Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论,运筹学等等。注意该算法要求图中不存在负权边。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值