最近接触一个翻译系统的项目,里面的记忆库使用到了lucene,因此需要对要翻译的文本进行分词,
如果要翻译的源语言是英文,采用英文分词器
1.英文分词器:StandardAnalyzer
优点:支持中文采用的方法为单字切分。他会将词汇单元转换成小写形式,并去除停用词和标点符号。
如果要翻译的源语言是中文,采用中文分词器
2.中文分词器:smartcn与IKanalyzer
网上百度了很多,但是都没有文章能具体说明两者的优缺点,两者的分词效果怎么样?几乎所有有关两者之间的区别都是类似“开源中文分词框架分词效果对比smartcn与IKanalyzer”这个标题的文章,内容都是一样的。在这里为了加深一下印象,也在这里敲一遍。
总结:
i、二者对于中文的分词效果相对其他分词器,效果都更加,分词效果都是值得肯定的。
ii、smartcn分词器是lucene4.6版本之后自带的,中文分词效果不错,英文分词有问题,Lucene分词之后变成了Luncn
iii、IKAnalyzer分词之后,碎片太多,可以和人工分析效果最对比。
iiii、从自定义词库的角度做对比,因为smartcn是lucene自带的,目前不支持自定义词库,成为致命缺陷,因此只能放弃。
后期如果看到有更好的总结,再来这里补充........