最近在项目中药用到IK分词对文章进行分词,但是却遇到了分出来的词由大写变小写的问题,下面贴出解决方式:
打开ik的源码包org.wltea.analyzer.core.CharacterUtil类里
有个方法 叫regularize 该方法的作用是进行字符规格化(全角转半角,大写转小写处理)
显然把这个方法注释就好了 ,并且去掉相关引用地方的该方法调用
这样ik分词出来的字符就保留原先的完整性了
补充:在进行分词时候,有的时候我们只需要返回匹配的词语,而且进行匹配的词库也是我们自己定义的,这时候如果需要保持大小写就需要再次修改一下源码
具体修改位置是在/IKAnalyzerDev/src/org/wltea/analyzer/dic/Dictionary.java类中,将源码的toLowCase()全部注释即可!