中文分词项目(开源/API接口)总结


其他版本:
  • 2)MMSEG

    采用Chih-Hao Tsai的MMSEG算法(A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm)。MMSeg 算法有两种分词方法:Simple(only forward maximum matching)和Complex(three-word chunk maximum matching and 3 additional rules to solve ambiguities),都是基于正向最大匹配,Complex 加了四个规则过虑。
    源代码下载地址为:
    http://technology.chtsai.org/mmseg/


注:
  • (a) LibMMSeg 是Coreseek.com为Sphinx全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,也是采用Chih-Hao Tsai的MMSEG算法。LibMMSeg 采用C++开发,同时支持Linux平台和Windows平台。
    源代码下载地址为:
    http://www.coreseek.cn/opensource/mmseg/

  • (b) friso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。支持对UTF-8/GBK编码的切分,绑定了php扩展和sphinx token插件
    三种切分模式:(1).简易模式:FMM算法 (2).复杂模式-MMSEG四种过滤算法 (3)检测模式:只返回词库中已有的词条
    源代码下载地址为:
    https://code.google.com/p/friso/
    http://git.oschina.net/lionsoul/friso

  • (c) MMSEG4J 是基于MMSeg 算法的Java开源中文分词组件,提供lucene和solr 接口  
    源代码下载地址为:
    https://code.google.com/p/mmseg4j/

  • (d) RMMSeg is written in pure Ruby. RMMSegis an implementation of MMSEG word segmentation algorithm. It is based on two variants of maximum matching algorithms.
    源代码下载地址为:
    http://rmmseg.rubyforge.org/

  • (e) rmmseg-cpp is a re-written of the original RMMSeggem in C++, the core part is written in C++ independent of Ruby. It ismuch faster and cosumes much less memory than RMMSeg. The interface of rmmseg-cpp is almost identical to RMMSeg.
    源代码下载地址为:
    http://rmmseg-cpp.rubyforge.org/
    https://github.com/pluskid/rmmseg-cpp/

  • (f) pymmseg-cpp is a Python interface to rmmseg-cpp.
    源代码下载地址为:
    https://github.com/pluskid/pymmseg-cpp/
    https://code.google.com/p/pymmseg-cpp/

  • 3)IKAnalyzer

    IKAnalyzer是一个开源基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本IKAnalyzer3.0采用了特有的“正向迭代最细粒度切分算法“,已发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
    源代码下载地址为:
    https://code.google.com/p/ik-analyzer/
    https://github.com/yozhao/IKAnalyzer

  • 4)FNLP(FudanNLP)

    FudanNLP主要是为中文自然语言处理而开发的工具包(现已更名为FNLP),功能包含信息检索(文本分类、新闻聚类),中文处理(中文分词、词性标注、实体名识别、关键词抽取、依存句法分析 时间短语识别),结构化学习(在线学习、层次分类、聚类)。从功能的角度而言,FNLP与著名的Python自然语言处理工具包NLTK较为类似,但后者对中文处理的能力较差。FNLP采用Java编写,可轻松运行在各种不同的平台之上。
    源代码下载地址为:
    https://github.com/xpqiu/fnlp/

  • 5)NiuParser

    中文句法语义分析系统NiuParser支持中文句子级的自动分词、词性标注、命名实体识别、组块识别、成分句法分析、依存句法分析和语义角色标注七大语言分析技术。所有代码采用C++语言开发,不包含任何其它开源代码。NiuParser系统可以免费用于研究目的,但商业用途需获得商业授权许可。
    源代码下载地址为:
    http://www.niuparser.com/index.en.html

  • 6) LTP

    语言技术平台(Language Technology Platform,LTP)是提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用。
    源代码下载地址为:
    https://github.com/HIT-SCIR/ltp

注:

  • (a) LTP的分词模块(LTP-CWS)基于结构化感知器(Structured Perceptron)算法构建,支持用户自定义词典,适应不同用户的需求;另外还新增了个性化(增量式)训练功能,用户可以根据自己的实际需求,如对新领域的文本进行分词等,自行标注少量句子的分词结果(比如对LTP分词结果的修正),LTP分词模块可以重新训练一个更好应对新领域的分词器,进一步提高新领域上分词的准确率。
    源代码下载地址为:
    https://github.com/HIT-SCIR/ltp-cws

  • (b) pyltp是LTP的Python封装
    源代码下载地址为:
    https://github.com/HIT-SCIR/pyltp

  • 7)Ansj中文分词

    基于google语义模型+条件随机场模型的中文分词的java实现,实现了.中文分词. 中文姓名识别 . 用户自定义词典。Ansj是基于ictclas工具的java实现,基本上重写了所有的数据结构和算法。使用开源版的ictclas词典.并且进行了部分的人工优化。
    源代码下载地址为:
    https://github.com/NLPchina/ansj_seg

  • 8) jieba中文分词

    jieba”结巴”分词为Python 中文分词组件,支持三种分词模式:(a)精确模式,试图将句子最精确地切开,适合文本分析;(b)全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;(c)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。另外jieba分词支持繁体分词和自定义词典。
    算法主要包括:基于Trie树结构实现高效的词图扫描,生成句子中汉字构成的有向无环图(DAG);采用了记忆化搜索实现最大概率路径的计算, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字位置概率的模型,使用了Viterbi算法。
    源代码下载地址为:
    https://github.com/fxsjy/jieba

注:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值