java分词器
这两天一没啥事儿的时候就喜欢更新一下博客,养成个写博客的习惯其实也挺好,积少成多,量变引起质变,古人云:不积跬步无以至千里嘛
今天写写分词器,关于ansj分词器的一些小老弟的浅薄认识,总结分享一下吧
先来说说分词吧,分词咱们今天就搞一搞中文的分词
说白了,分词是做什么用的呢,将一句话分成按一定规则的切分成几块的汉字组合,也可以说是切分成一个一个单独的词的过程
那么关于分词的作用呢,中文分词是文本挖掘的基础性一环,对于输入的一段中文,成功的进行分词,可以达到电脑自动识别语句含义的效果,挺神奇
这个中文分词的技术呢,它是隶属于自然语言处理技术的范畴的,对于一句话,人可以通过自己的知识来明白那些是词,哪些不是词,但是机器怎么理解呢,它的处理过程就是分词器处理算法
关于现在流行的几大分词器我们来做个总结
java分词器
ansj分词(比较简单易用,本项目选择该分词器)
hanLP分词
mmseg
IK分词
jieba分词
PaoDing分词
python分词器
jieba分词
c/c++分词器
ICTCLAS
ansj分词器应用集成
相关资料
github主页:https://github.com/NLPchina/ansj_seg
在线学习手册:http://nlpchina.github.io/ansj_seg/
选择ansj的原因:
1)功能强大,在词义消歧、新闻发现等难点出表现很优秀
2)简单易用,社区比较活跃
3)公司内部对ansj较熟悉,建议采用之
anjs分词的词典构成
1)分词词典
2)用户自定义词典
3)新词词典
那么在具体的ansj分词器使用过程中呢,我们到底要怎么搞呢,来来来老乡,
我给你大致介绍一下
首先,在maven工程中,要导入ansj分词器所需要的依赖
<!-- ansj依赖jar配置 ==start -->
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
<!-- ansj依赖jar配置 ==end -->
是滴,就是这么一段依赖就ok哩
最后呢,咱们来具体的测试用一下子,少安哥,你给俄用一哈
分词器处理出来的结果大致还算可以的哈,这个里面还涉及到了一个log4j的问题,这个log4j前两天面试也遇到了,自己呢也只是了解个大概,明天抽时间结合一下CSDN里的老前辈的文章总结一下。
Aupa Atleti!
wish that you have a build time machine,
so you could see the things no one can see!
等我的下一篇log4j的博客,我的粉丝们,假装有粉丝吧----------------------------