利用java简单的中文分词功能模块

最新推荐文章于 2024-07-06 11:24:09 发布

振云博客

最新推荐文章于 2024-07-06 11:24:09 发布

阅读量224

点赞数

分类专栏： java 文章标签： java

本文链接：https://blog.csdn.net/qq_34134299/article/details/109162921

版权

java 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

第一步：在复制下列代码到您的编程软件项目里之前，还需要下载两个jar包
IKAnalyzer2012.jar
lucene-core-3.6.0.jar
百度网盘下载地址
https://pan.baidu.com/s/1oGec_mqU7PdqkKdA-H4k0Q
提取码: 9egm
第二布：将两个jar包复制到任意一个文件中（或者你可以新建一个lib文件夹然后把两个文件复制进去）
第三步：右击项目出现如下页面，再点击Build Path下的Configure Build path…
di在这里插入图片描述
第四步：第三步之后页面会跳出如下窗口，点击Add jaRs…：

第五步：然后找到你复制进项目中的两个jar包，按Ctrl键可以同时选中两个一起添加

第六步：添加后的样子如下所示，文件图标变成小奶瓶，最后点击Apply应用就可以复制代码运行了。
在这里插入图片描述

第七步：复制代码到你的clss文件中运行即可

package com.core.service.impl;（这里改成自己的包名）
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import 
org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class ChineseWordSeg {
	public static void main(String[] args) throws IOException {
		// 提前准备需要分词的语言
		String t = "你好，我现在还刚刚接触数据结构，所以还不是太了解!";
		// 创建一个分词对象
		Analyzer a = new IKAnalyzer(true);
		StringReader r = new StringReader(t);
		// 对读入的语言开始进行分词操作
		TokenStream to = a.tokenStream("", r);
		// 获得CharTermAttribute类
		CharTermAttribute te = to.getAttribute(CharTermAttribute.class);
		// 依次遍历分词数据，注意要转换成字符串类型
		while (to.incrementToken()) {
			System.out.print(te.toString() + "，");
		}
		r.close();
		System.out.println();
	}
}