2018-07-04 常用中文分词器smartcn与IKanalyzer的比较

最近接触一个翻译系统的项目,里面的记忆库使用到了lucene,因此需要对要翻译的文本进行分词,

如果要翻译的源语言是英文,采用英文分词器

1.英文分词器:StandardAnalyzer

优点:支持中文采用的方法为单字切分。他会将词汇单元转换成小写形式,并去除停用词和标点符号。


如果要翻译的源语言是中文,采用中文分词器

2.中文分词器:smartcn与IKanalyzer


网上百度了很多,但是都没有文章能具体说明两者的优缺点,两者的分词效果怎么样?几乎所有有关两者之间的区别都是类似“开源中文分词框架分词效果对比smartcn与IKanalyzer”这个标题的文章,内容都是一样的。在这里为了加深一下印象,也在这里敲一遍。

总结:

i、二者对于中文的分词效果相对其他分词器,效果都更加,分词效果都是值得肯定的。
ii、smartcn分词器是lucene4.6版本之后自带的,中文分词效果不错,英文分词有问题,Lucene分词之后变成了Luncn
iii、IKAnalyzer分词之后,碎片太多,可以和人工分析效果最对比。
iiii、从自定义词库的角度做对比,因为smartcn是lucene自带的,目前不支持自定义词库,成为致命缺陷,因此只能放弃。

后期如果看到有更好的总结,再来这里补充........

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值