中文分词工具汇总(1)

常用的开源中文分词工具  
本文链接:http://www.scholat.com/vpost.html?pid=4477
来源: 许玉赢    发布时间:2014-04-20 23:45:18    最后编辑:2014-09-29    访问量:7009

    由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的(训练CRF模型是非常耗时的),但是精度高,涉及CRF的分词工具有CRF++,Stanford分词工具。

      Bakeoff是一个国际中文处理比赛,有多个语料,所以每个语料都有排名。只有部分优秀的Bakeoff工具开源。

介绍了以下18种分词工具(大部分是基于java语言):

 

perminusminus   

Stanford 汉语分词工具(Bakeoff-2两项第一)

哈工大语言云(LTP -cloud)

ICTCLAS——(Bakeoff -1两项第一)

Ansj(ICTCLAS的java实现)

庖丁解牛分词

盘古分词    

IKAnalyzer

imdict-chinese-analyzer

mmseg4j

FudanNLP(复旦大学)

Jcseg

SCWS

Friso

HTTPCWS

libmmseg

OpenCLAS

CRF++ (Bakeoff-3四项第一)

 

 

perminusminus

项目网址:http://code.google.com/p/perminusminus/

作者:张开旭(清华大学2012届博士毕业生,毕业论文,现在厦大教学)。

个人主页:http://nlp.csai.tsinghua.edu.cn/~zkx/

 

源码是python。算法原理是感知器模型

 

Introduction

Per-- is a toolkit of AveragedPerceptron (Freund and Schapire, 1999) for path Labelingunder theKISS principle(Keep It Simple and Stupid).

Features

  • Simple and efficient
  • Multiple usage: path labeling, path finding, sequence labeling and classification
  • Can provide n-best outputs
  • Can provide "marginal score"
  • Can provide alpha (forward) values and beta (backward) values using forward-backward algorithm
  • Open source

 

Stanford 汉语分词工具

Stanford 汉语分词工具的成绩:2005年Bakeoff2两个语料的测试第一。

官网:http://nlp.stanford.edu/software/segmenter.shtml

 

最后更新2013-11-12(今天2013-12-28)

一篇使用介绍:

http://hi.baidu.com/liheming333/item/585fba1f898838623e87ce18

斯坦福自然语言小组直接使用CRF 的方法,特征窗口为5。

 

哈工大语言云(LTP -cloud)

项目网址:http://www.ltp-cloud.com/download/#ltp_cloud_sdk

HIT的ITNLP Lab, HIT Wei JIANG在Bakeoff 2005的open语料MSR上获得测评第一名。不确定LTP –cloud是否是在Wei JIANG的工作基础上进行的开发。

语言云曾获CoNLL2009七国语言句法语义分析评测总成绩第一名,

使用方式为web service

语言云(语言技术平台云 LTP-Cloud)是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。 后端依托于语言技术平台,语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务。

作为基于云端的服务,语言云具有如下一些优势:

  • 免安装:用户只需要下载语言云客户端源代码,编译执行后即可获得分析结果,无需调用静态库或下载模型文件。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值