结巴分词(java版) jieba-analysis
引言
首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴
分词. 同时也感谢jieba分词java版本的实现团队huaban,他们的努力使得Java也能直接做出效果很棒的分词。
不过由于huaban已经没有再对java版进行维护,所以我自己对项目进行了开发。除了结巴分词(java版)所保留的原项目针对搜索引擎分词的功能(cut~forindex~、cut~forsearch~),我加入了tfidf的关键词提取功能,并且实现的效果和python的jieba版本的效果一模一样!
导入依赖
<dependency>
<groupId>com.huaban</groupId>
<artifactId>jieba-analysis</artifactId>
<version>1.0.2</version>
</dependency>
使用方法
public static void main(String[] args) {
//用法:
JiebaSegmenter jiebaSegmenter = new JiebaSegmenter();
String s1="我的宿舍:位于河南省,新乡市牧野区,建设东区46号,河南师范大学,东校区,东16号学生公寓";
List<String> strings = jiebaSegmenter.sentenceProcess(s1);
for (String s:strings){
System.out.println(s);
}
// 实操:
System.out.println(new JiebaSegmenter().sentenceProcess("我的宿舍:位于河南省,新乡市牧野区,建设东区46号,河南师范大学,东校区,东16号学生公寓"));
}
控制台结果展示
改进
虽然我们完整的把句子分成了单词和文字,但是我们并没有达到我们想要的结果,因为jieba并没有把标点符号(±*/!!??)给去掉
思路1
,可以把所有的标点符号都replace掉【有点麻烦,而且需要考虑周全】,即
s1.replace(",","").replace("+","").replace("-","").replace("*","").replace("/","")
...;
思路2
:用正则表达式,把所有的标点符号全部去除
s1.replaceAll("[\\pP‘’“”]", "")
改进效果
// 思路1:
System.out.println(new JiebaSegmenter().sentenceProcess(s1.replace(",", "").replace("+", "").replace("-", "").replace("*", "").replace("/", "").replace("!", "").replace("?", "").replace(",", "").replace("?", "").replace("!", "").replace(";", "").replace("‘", "").replace(":", "").replace("”", "")));
// 思路2:
System.out.println(new JiebaSegmenter().sentenceProcess(s1.replaceAll("[\\pP‘’“”]", "")));
可以看到:效果一样,而正则表达式事半功倍
。