IKAnalyzer2012_u6使用过程
关于IKAnalyzer2012_u6的使用
使用IKAnalyzer2012_u6时,只需将IKAnalyzer2012_u6.jar包导入到IDEA工程目录下即可,此时可以参考IKAnalyzer文档进行分词。关于使用停止词(包括扩展词)的使用
停止词文件stopwords.dic必须是以UTF-8无ROM格式编码,一种简单的方法就是使用Notepad++软件(网上随处都能下载)打开.dic文件,然后选择格式并保存成UTF-8无ROM格式即可(已经是的可以忽略)。关于IKAnalyzer.cfg.xml文件的书写
IKAnalyzer.cfg.xml文件打开后如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典-->
<entry key="ext_dict">/ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">topwords.dic;</entry>
</properties>
此文件只用关心下面两句会的配置,其中将ext_dict.dic(扩展词)和ext_stopwords.dic(停止词)改写成与自己想要的扩展词文件和停止词文件名相同即可。
<entry key="ext_dict">ext_dict.dic;</entry>
<entry key="ext_stopwords">ext_stopwords.dic;</entry>
- 关于IKAnalyzer.cfg.xml和停止词文件stopword.dic的放置位置
注意:将这两个文件放置在与程序编译后的.class文件一起。例如:我们写的程序test.java编译后会生成test.class文件,此时找到这个文件所在的文件夹,将上述两个文件放置在这个文件夹中即可。
上述过程只是对IKAnalyzer的简单操作,如果需要,可以将文件进行重新组织,或者更改IKAnalyzer中的源代码。
上述步骤来源于对IKAnalyzer2012_u6.jar包下的org.wltea.analyzer.cfg下面的DefaultConfig.class文件的理解。