IK分词工具的使用（java）

最新推荐文章于 2024-08-06 10:19:49 发布

明天,今天,此时

最新推荐文章于 2024-08-06 10:19:49 发布

阅读量2k

点赞数 2

分类专栏：代码文章标签： IK分词

本文链接：https://blog.csdn.net/LearnToPain/article/details/109620101

版权

代码专栏收录该内容

14 篇文章 0 订阅

订阅专栏

说明

到目前为止，就中文分词工具和中文分词方法而言，分词模型大概有10几个种类，效果较好的并不多，HMM，MMSEG之类的，当然还有深度学习的模型，paddle的模型比较好。按工具名说的话有中科院的nlpir，哈工大的ltp,不知何出的jieba，还有清华北大都有分词工具，还有很多，十几种应该有。所有工具我都看了的效果并不是他们吹嘘的那么好，很多场景都无法正常分词。
主要问题：
同样的词在不同的句子中分词效果不一样；
未登录词，也就是常见的专有名词，无法处理；
歧义句子；
现在语言多国语言混输；
文言文这种，常人无法看懂的文章。

这些问题解决思路：通过Natural Language Understanding和Reinforcement Learning，应该还没人研究出来；

正文

这里用maven,IK分词找不到单独实现的包，因为它实现在lucene所以需要借用lucene-core

		<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-core -->
		<dependency>
			<groupId>org.apache.lucene</groupId>
			<artifactId>lucene-core</artifactId>
			<version>8.6.3</version>
		</dependency>
		<!-- https://mvnrepository.com/artifact/com.jianggujin/IKAnalyzer-lucene -->
		<dependency>
			<groupId>com.jianggujin</groupId>
			<artifactId>IKAnalyzer-lucene</artifactId>
			<version>8.0.0</version>
		</dependency>

java代码，注意包名这里没添加


import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
import static java.lang.System.out;

import java.io.StringReader;
import java.util.ArrayList;
import java.util.List;

public class test4 {

    public static String ikwordSplit( String content) throws Exception {
        @SuppressWarnings("resource")
		IKAnalyzer analyzer=new IKAnalyzer(true);
    	TokenStream stream = analyzer.tokenStream(null, new StringReader(content));
        stream.reset();
        CharTermAttribute term = stream.addAttribute(CharTermAttribute.class);
        
        List<String> result = new ArrayList<String>();
        while(stream.incrementToken()) {
            result.add(term.toString());
        }
        stream.close();
        return String.join("|", result);
    }
	public static void main(String[] args) throws Exception {
		out.print(ikwordSplit("明天你好"));
	}
}