需求是统计一篇文章、一段话中各种词汇出现的次数,比如有一篇文章如下:为维护人民健康提供有力保障,希望统计文章中的高频词,如下结果
难点在于分词,例如这段换:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
,如果分的不好,那会十分的尴尬!!!
找了很多工具,在网上发现一个比较合适的分词算法,且是用java实现的,经过简单改动,实现了功能,代码放在gitee上,地址:https://gitee.com/langhu/jieba-analysis-mend
导下项目后长这个样子: