【Java】jieba分词对象

21 篇文章 0 订阅
8 篇文章 0 订阅

结巴分词(java版) jieba-analysis

引言

首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴
分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词。
不过由于huaban已经没有再对java版进行维护,所以我自己对项目进行了开发。除了结巴分词(java版)所保留的原项目针对搜索引擎分词的功能(cut~forindex~、cut~forsearch~),我加入了tfidf的关键词提取功能,并且实现的效果和python的jieba版本的效果一模一样!

导入依赖

<dependency>
  <groupId>com.huaban</groupId>
  <artifactId>jieba-analysis</artifactId>
  <version>1.0.2</version>
</dependency>

使用方法

    public static void main(String[] args) {
        //用法:
        JiebaSegmenter jiebaSegmenter = new JiebaSegmenter();
        String s1="我的宿舍:位于河南省,新乡市牧野区,建设东区46号,河南师范大学,东校区,东16号学生公寓";
        List<String> strings = jiebaSegmenter.sentenceProcess(s1);
        for (String s:strings){
            System.out.println(s);
        }
//        实操:
        System.out.println(new JiebaSegmenter().sentenceProcess("我的宿舍:位于河南省,新乡市牧野区,建设东区46号,河南师范大学,东校区,东16号学生公寓"));
    }

控制台结果展示

在这里插入图片描述
改进
虽然我们完整的把句子分成了单词和文字,但是我们并没有达到我们想要的结果,因为jieba并没有把标点符号(±*/!!??)给去掉

思路1,可以把所有的标点符号都replace掉【有点麻烦,而且需要考虑周全】,即

s1.replace(",","").replace("+","").replace("-","").replace("*","").replace("/","")
...;

思路2:用正则表达式,把所有的标点符号全部去除

s1.replaceAll("[\\pP‘’“”]", "")

改进效果

//        思路1:
        System.out.println(new JiebaSegmenter().sentenceProcess(s1.replace(",", "").replace("+", "").replace("-", "").replace("*", "").replace("/", "").replace("!", "").replace("?", "").replace(",", "").replace("?", "").replace("!", "").replace(";", "").replace("‘", "").replace(":", "").replace("”", "")));

//        思路2:
        System.out.println(new JiebaSegmenter().sentenceProcess(s1.replaceAll("[\\pP‘’“”]", "")));

在这里插入图片描述
可以看到:效果一样,而正则表达式事半功倍

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

君问归期魏有期

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值