彻底重写了ICTCLAS
测试了1000万数据的分词速度,4M/s,此速度不计字符串输入,结果输出;
不过此ICTCLAS已经和原有的ICTCLAS彻底不同了-除了utility包外其他都自己重写。
unicode编码的分词
用了最大正向匹配,否则不可能快的,当消除歧义,未登陆词识别,词性标注时才会使用ICTCALS模块,否则正向一趟扫描即可。
另外加了特例表,如果特例表命中,直接输出结果无需消歧
无法贴 VISIO图,封装成ICTAnalyzer,以便clucene使用
提供了两种切分方法
1.检索模式
2.索引模式
索引时会增加较多的冗余词,例如北京大学-除了"北京大学"此结果外,还有"北京""大学",不同的颗粒度。
增加了拼音功能-北京大学译作:beijingdaxue 和bei jing da xue
多了同义词识别,例如- 单车和自行车