用了好几种分词方式,
1.先是扫描出全部词组并记下前后位置
2.然后将有争议的部分进行词性规则匹配 如:江西省委 可能为 "江西省ns(地名) 委g(语素) "和 "江西ns(地名) 省委n(名词) " 按规则ns+n就可以正确分出 "江西 省委 "
3.无规则匹配的按统计频率分值高低拆分
4.用普通的正向最大匹配处理可能出现的碎片
5.用语料库中收集到的词性规则尽可能好的调整词性
6.基于模式规则和过滤规则的人名匹配(顺带还能识别其它一些未登录词)
速度不是很好,主要在第二步分析词组组合和词性组合这块比较耗时,可能是寻径算法不好(推栈式),但整体如无特别需要因在可接受范围内.
1.先是扫描出全部词组并记下前后位置
2.然后将有争议的部分进行词性规则匹配 如:江西省委 可能为 "江西省ns(地名) 委g(语素) "和 "江西ns(地名) 省委n(名词) " 按规则ns+n就可以正确分出 "江西 省委 "
3.无规则匹配的按统计频率分值高低拆分
4.用普通的正向最大匹配处理可能出现的碎片
5.用语料库中收集到的词性规则尽可能好的调整词性
6.基于模式规则和过滤规则的人名匹配(顺带还能识别其它一些未登录词)
速度不是很好,主要在第二步分析词组组合和词性组合这块比较耗时,可能是寻径算法不好(推栈式),但整体如无特别需要因在可接受范围内.