IKAnlyzer使用注意事项

IKAnalyzer2012_u6使用过程

  • 关于IKAnalyzer2012_u6的使用
    使用IKAnalyzer2012_u6时,只需将IKAnalyzer2012_u6.jar包导入到IDEA工程目录下即可,此时可以参考IKAnalyzer文档进行分词。

  • 关于使用停止词(包括扩展词)的使用
    停止词文件stopwords.dic必须是以UTF-8无ROM格式编码,一种简单的方法就是使用Notepad++软件(网上随处都能下载)打开.dic文件,然后选择格式并保存成UTF-8无ROM格式即可(已经是的可以忽略)。

  • 关于IKAnalyzer.cfg.xml文件的书写
    IKAnalyzer.cfg.xml文件打开后如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> 
<properties> 
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典-->
    <entry key="ext_dict">/ext.dic;</entry> 
    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">topwords.dic;</entry>

</properties>

此文件只用关心下面两句会的配置,其中将ext_dict.dic(扩展词)和ext_stopwords.dic(停止词)改写成与自己想要的扩展词文件和停止词文件名相同即可。

<entry key="ext_dict">ext_dict.dic;</entry>
<entry key="ext_stopwords">ext_stopwords.dic;</entry>
  • 关于IKAnalyzer.cfg.xml和停止词文件stopword.dic的放置位置
    注意:将这两个文件放置在与程序编译后的.class文件一起。例如:我们写的程序test.java编译后会生成test.class文件,此时找到这个文件所在的文件夹,将上述两个文件放置在这个文件夹中即可。

上述过程只是对IKAnalyzer的简单操作,如果需要,可以将文件进行重新组织,或者更改IKAnalyzer中的源代码。
上述步骤来源于对IKAnalyzer2012_u6.jar包下的org.wltea.analyzer.cfg下面的DefaultConfig.class文件的理解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值