中文(IK)分词器是在IKAnalyzer分词包中使用的,使用前请自行下载相应的jar包
将这个文件(IKAnalyzer.cfg.xml)放入到src的的目录先,
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
根据上面的配置文件可以定义自己的分词(ext.dic)放入到src的目录下,在里面可以直接写需要分的词
程序员
工程师
流行语
老司机
也可以添加自己的停词(stopword.dic文件),也需要放入到src目录下,在文件里面直接添加自己的停词即可:例如
是
啊
恩
吗
个