热门中文分词系统调查报告

**中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
目录

常见的分词系统介绍

  • ICTCLAS(NLPIR)
  • MMSEG4J
  • IK Analyzer
  • LTP-cloud
  • paoding

常见的分词系统简介

img_fb5216ee4afbfe4223a095b953731fbe.png

ICTCLAS


简介

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又称NLPIR,是中国科学院计算技术研究所研制的汉语分词系统。

网址:http://ictclas.nlpir.org/

主要功能包括:

  • 中文分词;
  • 词性标注;
  • 命名实体识别;
  • 用户词典功能;

支持GBK编码、UTF8编码、BIG5编码;
支持Windows,Linux,Android等操作系统;
支持Java/C++/C#/C等开发。

在线演示
img_cae712e1ab6ca7a4169097827be63c1b.png

中文分词


img_e88474ae4d13b49fdba1535c2ce216ee.png

实体抽取


img_5d49b06de8620b7187d2a6dc60f11a84.png

词频统计
img_193a5a23c81e0ea62dab5749e4e39a71.png

MMSEG4J


**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。

实现了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过滤。

官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

Lucene简介

img_c921eccd9dd05f6e2afd1925c6c98678.png

*Lucene是一个非常优秀的开源的全文搜索引擎; 我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度; 现在已经是Apache的顶级项目 *

Apache Lucene官网

Sorl简介

img_66cc92c6a9c7907ab9a9c49c7388c7ac.png

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

img_a3138fe70f4e7db843f099b493b0e36e.jpe
Solr

参考链接:
mmseg4j-core from Github
中文分词器 mmseg4j

IK Analyzer


IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。

从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现,并且支持solr6.x版本。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

  2. 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

  3. 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

  4. 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

  5. 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

LTP cloud(语言云)


img_826ad174f57235fef6682882753ceb2f.png

语言云是哈工大和科大讯飞联合研发的云端中文自然语言处理服务平台,提供分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理服务。

在线演示

样例:他叫汤姆去拿外衣。
他点头表示同意我的意见。
我们即将以昂扬的斗志迎来新的一年。
国内专家学者40余人参加研讨会。

句子视图
img_f076974dfa4a4c0b3cb76d8f68197f2e.png
句子视图
篇章视图
img_d01dd5603d085361f8ca50a11f726748.png
分词
img_e3195c56220867313d0e02b743652d2f.png
词性标注
img_a99b0a585cb8b637f9ec39217a4db44f.png

img_2935d71383433e0bdbe9002075868b17.png
命名实体

相关链接:
LTP Docs
讯飞开放平台

paoding(庖丁解牛分词器)


庖丁中文分词器是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析
参考链接:
中文分词库 Paoding

参考链接:
搜索引擎11 款开放中文分词引擎大比拼
中文分词工具测评

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值