ICTCLAS分词系统研究(八)--生成最终分词结果

经过人名、地名等未登陆词的识别之后,再次生成二叉分词图表,求取N-最短路径。为何再次执行这样的循环,是因为在得到初分结果后又增加了新的节点(比如:人名或地名)到结果链表中,需要再次求取最短路径:

经过优化后的二叉分词图表:

 1234567891011
0始##始@张始##始@未##人         
1  张@华张@未##人       
2     未##人@说     
3    华@平      
4     未##人@说     
5     平@说     
6      说@的    
7       的@确实   
8        确实@在  
9         在@理 
10          理@末##末
 

经过优化后的二叉分词路径:

序号二叉分词路径
00 2 6 7 8 9 10 11 

至此,我们得到了最终的分词路径,正确的把人名识别出来,但在这个结果只有一部分词正确标注了词性,主要是未登陆词,即源码中以“未##X”表示的,其它的分词并未成功的进行记性标记。所以需要再次调用记性标记这一次过程,把剩余的词的词性成功标注出来。

经过优化后的分词结果:

序号分词结果
0张华平/nr 说/v 的/uj 确实/ad 在/p 理/n

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值