分词器
小飞侠-2
我的github地址https://github.com/liujiekasini 欢迎大家分享讨论
展开
-
Lucene5学习之使用MMSeg4j分词器
MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2转载 2015-12-15 15:40:53 · 2901 阅读 · 0 评论 -
ansj_seg中文分词实例
首先介绍一下这个开源分词软件以下摘自原作者的话:Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。中文分词实例(1)导入maven原创 2015-12-17 15:10:00 · 2537 阅读 · 0 评论 -
ansj词典加载及简洁分词过程
ansj词典加载及简要分词过程 粗略看了点ansj源代码,记录备忘。 词典等配置文件加载类 (以调用 NlpAnalysis 分词类为例): 1, MyStaticValue 初始化 NlpAnalysis 中 static 的静态变量 spliansj词典加载及简要分词过程粗略看了点ansj源代码,记录备忘。 词典等配置文件加载类(以调用NlpAnal转载 2015-12-17 15:10:39 · 12970 阅读 · 4 评论 -
【Java】Java中文分词器Ansj的使用
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。1.下载Ansj的相关jar包要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg转载 2015-12-17 13:46:02 · 5080 阅读 · 0 评论 -
测试庖丁解牛分词工具
因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta)。现将使用过程小结:下载地址:http://pan.baidu.com/s/1eQ88SZS个人环境:linux+eclipse使用分为如下几步:1. 配置dic文件:修改paoding-analysis.jar中的转载 2015-12-17 13:55:12 · 897 阅读 · 0 评论 -
Java中文分词工具AnsjSeg使用
2015-1-14阅读474 评论0 中文分词是进行中文文本分析的一个重要步骤。对于Java语言,有许多可选的分词工具,如中科院计算所的NLPIR(原ICTCLASS)、盘古分词、IKAnalyzer、PaodingAnalyzer,其中,试用过ICTCLASS及其后续版本,刚开始感觉不错,但是Java调用C语言的方式实在是受不了,没有原生Java编写的用着方便,最近在处转载 2015-12-17 15:09:13 · 5585 阅读 · 0 评论 -
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 在线演示:http://ansj.sdapp.cn/demo/seg.jsp 官网地址:http://www.ansj.org/ Github地址:https://github.com/ansjsun/ansj_seg转载 2015-12-17 13:40:14 · 1703 阅读 · 1 评论 -
中科院分词ICTCLAS5.0_JNI 使用方法
1.简介中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取转载 2015-12-25 15:20:59 · 1093 阅读 · 0 评论