ansj分词器的简单了解介绍

java分词器

这两天一没啥事儿的时候就喜欢更新一下博客,养成个写博客的习惯其实也挺好,积少成多,量变引起质变,古人云:不积跬步无以至千里嘛

今天写写分词器,关于ansj分词器的一些小老弟的浅薄认识,总结分享一下吧

 

先来说说分词吧,分词咱们今天就搞一搞中文的分词

说白了,分词是做什么用的呢,将一句话分成按一定规则的切分成几块的汉字组合,也可以说是切分成一个一个单独的词的过程

那么关于分词的作用呢,中文分词是文本挖掘的基础性一环,对于输入的一段中文,成功的进行分词,可以达到电脑自动识别语句含义的效果,挺神奇

这个中文分词的技术呢,它是隶属于自然语言处理技术的范畴的,对于一句话,人可以通过自己的知识来明白那些是词,哪些不是词,但是机器怎么理解呢,它的处理过程就是分词器处理算法

关于现在流行的几大分词器我们来做个总结

 java分词器

         ansj分词(比较简单易用,本项目选择该分词器)

         hanLP分词

         mmseg

         IK分词

         jieba分词

         PaoDing分词

python分词器

         jieba分词

c/c++分词器

         ICTCLAS

 

ansj分词器应用集成

相关资料

         github主页:https://github.com/NLPchina/ansj_seg

         在线学习手册:http://nlpchina.github.io/ansj_seg/

 

选择ansj的原因:

1)功能强大,在词义消歧、新闻发现等难点出表现很优秀

2)简单易用,社区比较活跃

3)公司内部对ansj较熟悉,建议采用之

 

anjs分词的词典构成

1)分词词典

2)用户自定义词典

3)新词词典

 

那么在具体的ansj分词器使用过程中呢,我们到底要怎么搞呢,来来来老乡,

我给你大致介绍一下

首先,在maven工程中,要导入ansj分词器所需要的依赖

 

<!-- ansj依赖jar配置 ==start -->

<dependency>

<groupId>org.ansj</groupId>

<artifactId>ansj_seg</artifactId>

<version>5.1.1</version>

</dependency>

<!-- ansj依赖jar配置 ==end -->

 

是滴,就是这么一段依赖就ok哩

 

最后呢,咱们来具体的测试用一下子,少安哥,你给俄用一哈

 

分词器处理出来的结果大致还算可以的哈,这个里面还涉及到了一个log4j的问题,这个log4j前两天面试也遇到了,自己呢也只是了解个大概,明天抽时间结合一下CSDN里的老前辈的文章总结一下。

Aupa Atleti!

 

wish that you have a build time machine,

so you could see the things no one can see!

 

 

等我的下一篇log4j的博客,我的粉丝们,假装有粉丝吧----------------------------

 

 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 Ansj 1.41版本的新增功能 •增加了调用文档说明 •调整了关键词抽取 •增加了摘要计算 •关键词标红 •大幅度提高了命名实体识别 •对于词性标注提供了基于概率的快速标注方式.依旧保留给予隐马模型的词性标注. •修复了目前已知的所有bug •大量修正了之前默认用户自定义词典中词性错误 •提供了给予crf++ wapiti等条件随即场工具的调用接口.用户可以及自定义训练model •增加了目前对最新版的Lucene、Solr、Elasticsearch开源第三方搜索框架的分词插件 效果测试——新词发现 引用 1. 未登陆词识别 example:NER:我要碎觉吊丝要小心!城西嘉南公寓 result:命名/v 实体/n ner/en : 我/r 要/v 碎觉/nw 吊丝/n 要/v 小心/v !/w 城西嘉南公寓/nw 2. 中文人名识别 example:NER: 邓颖超生前和刘晓辉同学合影, 李民工作了一天 result:邓颖超/nr 生前/t 和/c 刘晓辉/nr 同学/n 合影/v , 李民/nr 工作/vn 了/ul 一天/m 3. 外国人名识别 example:NER:本赛季德甲球队霍芬海姆的两名年轻球员菲尔米诺和福兰德表现出色,但球队主帅吉斯多尔态度强硬。 result:本赛季/n 德甲/n 球队/n 霍芬海姆/nrf 的/uj 两名/m 年轻/a 球员/n 菲尔米诺/nrf 和/c 福兰德/nr 表现出色/n ,/w 但/c 球队/n 主帅/n 吉斯多尔/nrf 态度强硬/n 。/w

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值