中文分词工具-IKAnalyzer下载及使用

最新推荐文章于 2024-09-06 09:41:44 发布

chenjieit619

最新推荐文章于 2024-09-06 09:41:44 发布

阅读量3.7k

点赞数 6

最近有个需求，需要对爬到的网页内容进行分词，以前没做过这个，随便找了找中文分词工具，貌似IKAnalyzer评价不错，因此就下来试试，在这里记录一下使用方法，备查。

关于IKAnalyzer的介绍，网上很多，搜一下就知道了。下载地址见文章最后面。

下载解压之后主要使用和依赖以下文件：

IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包

IKAnalyzer.cfg.xml — 配置文件，可以在这里配置停词表和扩展词库

stopword.dic — 停词表

lucene-core-3.6.0.jar — lucene jar包，注意：只能使用这个3.6版本，高版本有问题

IKAnalyzer中文分词器V2012_U5使用手册.pdf — 使用手册

新建Java项目，将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path，将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。

看一下IKAnalyzer.cfg.xml的内容：

<?xml version=”1.0″ encoding=”UTF-8″?>
<!DOCTYPE properties SYSTEM “http://java.sun.com/dtd/properties.dtd”>
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!–用户可以在这里配置自己的扩展字典 –>
<entry key=”ext_dict”></entry>

<!–用户可以在这里配置自己的扩展停止词字典–>
<entry key=”ext_stopwords”>stopword.dic;</entry>
</properties>

使用示例代码：

 
 package com.lxw1234.wordsplit;
 
import java.io.StringReader;
 
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
 
/**
 * 
 * @author lxw的大数据田地 -- lxw1234.com
 *
 */
public class Test {
 
	public static void main(String[] args) throws Exception {
		String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。 北京优衣库";
		Analyzer analyzer = new IKAnalyzer(false);
		StringReader reader = new StringReader(text);
		TokenStream ts = analyzer.tokenStream("", reader);  
        CharTermAttribute term=ts.getAttribute(CharTermAttribute.class); 
        while(ts.incrementToken()){  
            System.out.print(term.toString()+"|");  
        }
        analyzer.close();
        reader.close();  
	}
 
}