java停用词,如何删除java中的停用词?

I want to remove stop words in java.

So, I read stop words from text file.

and store Set

Set stopWords = new LinkedHashSet();

BufferedReader br = new BufferedReader(new FileReader("stopwords.txt"));

String words = null;

while( (words = br.readLine()) != null) {

stopWords.add(words.trim());

}

br.close();

And, I read another text file.

So, I wanna remove to duplicate string in text file.

How can I?

解决方案

You want to remove duplicate words from file, below is the high level logic for same.

Read File

Loop through file content(i.e one line at a time)

Have string tokenizer for that line based on space

Add each each token to your set. This will make sure that you have only one entry per word.

Close file

Now you have set that contains all the unique word of file.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java结巴分词是一个常用的文分词工具,可以用于将文文本进行切分。在使用结巴分词时,可以添加自定义的停用词来过滤掉一些常见但无实际意义的词语。 以下是一个示例代码,演示如何使用Java结巴分词并添加自定义的停用词: ```java import com.huaban.analysis.jieba.JiebaSegmenter; import com.huaban.analysis.jieba.SegToken; import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class JiebaDemo { public static void main(String[] args) { // 创建结巴分词对象 JiebaSegmenter segmenter = new JiebaSegmenter(); // 待分词的文本 String text = "我爱Java编程"; // 自定义停用词列表 List<String> stopWords = Arrays.asList("我", "编程"); // 分词结果列表 List<SegToken> segTokens = segmenter.process(text, JiebaSegmenter.SegMode.SEARCH); // 过滤停用词 List<String> result = new ArrayList<>(); for (SegToken segToken : segTokens) { String word = segToken.word; if (!stopWords.contains(word)) { result.add(word); } } // 打印分词结果 System.out.println(result); } } ``` 在上述代码,我们首先创建了一个JiebaSegmenter对象,然后指定待分词的文本。接着,我们定义了一个自定义的停用词列表,其包含了"我"和"编程"这两个词。然后,我们调用JiebaSegmenter的process方法对文本进行分词,并指定分词模式为SEARCH。最后,我们遍历分词结果,过滤掉停用词,并将非停用词添加到结果列表,最终打印出分词结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值