【Java】jieba分词对象_java jieba分词-CSDN博客

本文链接：https://blog.csdn.net/LongLiveThePRC/article/details/124217312

结巴分词(java版) jieba-analysis

引言

首先感谢jieba分词原作者fxsjy，没有他的无私贡献，我们也不会结识到结巴
分词. 同时也感谢jieba分词java版本的实现团队huaban，他们的努力使得Java也能直接做出效果很棒的分词。
不过由于huaban已经没有再对java版进行维护，所以我自己对项目进行了开发。除了结巴分词(java版)所保留的原项目针对搜索引擎分词的功能(cut~forindex~、cut~forsearch~)，我加入了tfidf的关键词提取功能，并且实现的效果和python的jieba版本的效果一模一样！

导入依赖

<dependency>
  <groupId>com.huaban</groupId>
  <artifactId>jieba-analysis</artifactId>
  <version>1.0.2</version>
</dependency>

使用方法

    public static void main(String[] args) {
        //用法：
        JiebaSegmenter jiebaSegmenter = new JiebaSegmenter();
        String s1="我的宿舍：位于河南省，新乡市牧野区，建设东区46号,河南师范大学，东校区，东16号学生公寓";
        List<String> strings = jiebaSegmenter.sentenceProcess(s1);
        for (String s:strings){
            System.out.println(s);
        }
//        实操：
        System.out.println(new JiebaSegmenter().sentenceProcess("我的宿舍：位于河南省，新乡市牧野区，建设东区46号,河南师范大学，东校区，东16号学生公寓"));
    }

控制台结果展示

在这里插入图片描述
改进
虽然我们完整的把句子分成了单词和文字，但是我们并没有达到我们想要的结果，因为jieba并没有把标点符号（±*/！!?？）给去掉

思路1，可以把所有的标点符号都replace掉【有点麻烦，而且需要考虑周全】，即

s1.replace(",","").replace("+","").replace("-","").replace("*","").replace("/","")
...;

思路2：用正则表达式，把所有的标点符号全部去除

s1.replaceAll("[\\pP‘’“”]", "")

改进效果

//        思路1：
        System.out.println(new JiebaSegmenter().sentenceProcess(s1.replace(",", "").replace("+", "").replace("-", "").replace("*", "").replace("/", "").replace("!", "").replace("?", "").replace("，", "").replace("？", "").replace("！", "").replace("；", "").replace("‘", "").replace("：", "").replace("”", "")));

//        思路2：
        System.out.println(new JiebaSegmenter().sentenceProcess(s1.replaceAll("[\\pP‘’“”]", "")));