word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。
1.案例一,自定义分词;
2.分词,保留分用词和不保留分用词
2.计算相似度;
3.词频统计
4.拆词和组词
5.同义词标注
6.词性标注
7.做反义标注
8.拼音标注
源代码参考百度网盘分词文件夹
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。
1.案例一,自定义分词;
2.分词,保留分用词和不保留分用词
2.计算相似度;
3.词频统计
4.拆词和组词
5.同义词标注
6.词性标注
7.做反义标注
8.拼音标注
源代码参考百度网盘分词文件夹