【IKAnalyzer】IKAnalyzer中文分词器的使用

IKAnalyzer中文分词器的使用


IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词

  • 安装
    修改pom文件
        <dependency>
            <groupId>com.janeluo</groupId>
            <artifactId>ikanalyzer</artifactId>
            <version>2012_u6</version>
        </dependency>
  • 使用测试
           StringReader sr = new StringReader("每个人都要走一条自己坚定了的路,就算是粉身碎骨。 ");
            IKSegmenter ik = new IKSegmenter(sr,true);
            Lexeme lex = null;
            while ((lex=ik.next())!=null){
                System.out.print(lex.getLexemeText()+" ");
            }

在这里插入图片描述

  • 配置暂停词和字典,暂停词也就是忽略词,字典也就是自定义组合词
    以下三个文件都在src目录下配置
    IKAnalyzer.cfg.xml文件
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">test.dic;</entry>
	<!--用户可以在这里配置自己的扩展停止词字典 -->
	<entry key="ext_stopwords">teststop.dic;</entry>
</properties>

自己在俩个字典里面添加词组即可

  • 注意点:
    1、停用词词典必须是UTF-8编码
    2、这里非常多跟我一样的新手没办法成功的原因就是被无bom的UTF-8格式给折磨的,IK作者自己也这样说了
    3、假设你不知道啥叫无BOM,也不确定自己的文件是不是UTF-8无bom,那么请在第一行使用回车换行,从第二行開始加入停止词
    4、该配置文件以及停用词词典均存放在src文件夹以下就可以。

  • 我在test.dic里输入
    在这里插入图片描述
    teststop.dic输入
    在这里插入图片描述

  • 运行
    加了字典的
    在这里插入图片描述
    没加字典的
    在这里插入图片描述
    发现都要走三个字合起来了,的 路俩个字忽略了

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值