springboot中引用word分词器,步骤如下所示:
一.引用word分词器jar包
可以在https://mvnrepository.com/中进行查找对应的版本进行引用,直接搜索org.apdplat即可
二.利用word实现分词
实现简单分词的工具类
import org.apdplat.word.WordSegmenter;
import org.apdplat.word.segmentation.Word;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;
public class WordSegmenterImpl {
/**
* 获取文本的所有分词结果
* @param text 文本
* @return 所有的分词结果,去除重复
*/
public static List<String> aaa(String text) {
List<Word> words = WordSegmenter.seg(text);
Set<String> resultset = new HashSet<>();
for (Word word : words){
resultset.add(word.getText());
}
return new ArrayList<>(resultset);
}
}
三.测试
main测试代码如下
class test{
public static void main(String[] args) {
float start = System.currentTimeMillis();
List<String> list = WordSegmenterImpl.aaa("java集合中:set与list相互转换");
float end = System.currentTimeMillis();
System.out.println("--------------耗时---------------");
System.out.println(end-start);
for (String s : list){
System.out.println(s);
}
start = System.currentTimeMillis();
List<String> list1 = WordSegmenterImpl.aaa("java集合中:set与list相互转换");
end = System.currentTimeMillis();
System.out.println("--------------耗时---------------");
System.out.println(end-start);
for (String s : list1){
System.out.println(s);
}
}
}
注意:第一次调用word分词器时会加载jar包中的很多工具,耗时较多,main方法调用时每次都会重新加载,接口调用时只是第一次加载