中文分词组件 KTDictSeg 1.2 版本发布及算法简介

作者:肖波

个人博客:http://blog.csdn.net/eaglet

2007/6 南京

 

经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能

1、 增加了中文人名判断

 2、 增加了正向匹配分词和反向匹配分词的选项

 3、 增加了停用词过滤

 4、 增加了词性标注

 

该版本对算法进行了改进

算法步骤如下

1)      预分词:预分词以 KTDictSeg 1.0 版本的算法为基础(参见 KTDictSeg 一种简单快速准确的中文分词方法),在发现多个可选结果时,判断上增加了对词性权重的判断,以提高判断的准确性。

2)      规则判断,1.2 版本增加了基于规则的分词判断功能,并定义了规则接口,使用者可以任意增加符合该接口规则的自定义规则。1.2版本中内置了三个规则(数词合并规则,词性比对规则和中文人名匹配规则)

3)      未登录词召回

 

1.2版本由于加入的对词性的判断,效率比1.0 版本略有下降,大概在 400Kbytes/s左右,读入字典的时间也有所加长,这些都有待后续改进。

 

1.2 版本的分词准确性方面比 1.0 版本有了较大提高,但还有不少值得改进的地方。中文分词目前解决歧异的方法通常有两种即基于规则的方法和基于统计的方法,目前版本只提供的基于规则的方法,后续版本将考虑采用规则和统计相结合的方法,进一步提高分词的准确性。

 

开源代码下载地址:http://www.cnblogs.com/Files/eaglet/KTDictSeg_v1.2.02.rar

 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 23
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值