java去掉停止词_如何在java中去除中文文本的停用词

本文介绍了如何在Java中使用HanLP分词库去除中文文本的停用词。首先,通过HanLP对文本进行分词,然后利用停用词表过滤掉常见无意义词汇。提供了一个去除停用词的工具类及测试代码,帮助读者实现这一功能。
摘要由CSDN通过智能技术生成

6868db279ed79df6948043af8c262f85.png

1. 整体思路

第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。

第二步:使用停用词表,去除分好的词中的停用词。

2. 中文文本分词环境配置

使用的HanLP-汉语言处理包进行中文文本分词。

·HanLP-汉语言处理包下载,可以去github上下载

·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。

·官方环境配置步骤也可以在github上查询到。

·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html

3. 下载停用词表

停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!

4. 去除停用词工具类

使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

fdf695b49747a74245158103de75ee7d.png

图1

5. 工具类测试

5.1 测试代码

public class test {

public static void main(String args[]) {

try {

System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));

} catch (IOException e) {

e.printStackTrace();

}

}

5.2 测试结果

201abb75c7305b86afd08fb36f535c24.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值