IKAnalyzer介绍及使用

**

IKAnalyzer介绍 使用

**
一、 IK介绍
为什么要分词呢,刚开始介绍的时候介绍过,我们要提取语句的特征值,进行向量计算。所有我们要用开源分词工具把语句中的关键词提取出来。至于详细的介绍我们后期进行项目实战的时候会一一介绍,目前我们只需要学会用这个工具,为之后的项目实战打下基础。
IK Analyzer是什么呢,就是我们需要的这个工具,是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的,结合词典分词和文法分析算法的中文分词组件。IK有很多版本,在2012版本中,IK实现了简单的分词歧义排除算法。
我们为什么选择IK作为我们的分词工具呢,这里我们简单介绍一下。这里我们采用了网上的一些介绍。
1、 IK才用了特有的“正向迭代最细粒度切分算法”,支持细粒度和智能分词两种切分模式。
2、 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。
3、 2012版的只能分词模式支持简单的分词排歧义处理和数量词合并输出。
4、 才用了多子处理器分析模式,支持 英文字母 数字 中文词汇等
5、 优化词典存储,更小的内存占用。
二、 IK的maven的使用
由于maven库里没有ik的坐标。我们需要手动添加到本地的maven仓库中。
1、 首先要clone代码:git clone https://github.com/wks/ik-analyzer到本地。(我相信听这个课程的各个仁兄应该都知道git并且会用git,如果你没听说过也不会用,那我也是无语了,自己百度去了解一下吧)
2、 编译并且安装到本地的repository:mvn install -Dmaven.test.skip=true。编译后也可以将jar上传到自己的maven私有库(如果有maven私有库,那么久直接使用2012版本,直接网上下载,然后上传到maven库即可)。
3、 在pom.xml中加入如下配置即可:

<dependency>  
           <groupId>org.wltea.ik-analyzer</groupId>  
           <artifactId>ik-analyzer</artifactId>  
           <version>3.2.8</version>  
</dependency>  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值