本文链接:http://www.scholat.com/vpost.html?pid=4477
来源:
介绍了以下18种分词工具(大部分是基于java语言):
perminusminus |
Stanford 汉语分词工具(Bakeoff-2两项第一) |
哈工大语言云(LTP -cloud) |
ICTCLAS——(Bakeoff -1两项第一) |
Ansj(ICTCLAS的java实现) |
庖丁解牛分词 |
盘古分词 |
IKAnalyzer |
imdict-chinese-analyzer |
mmseg4j |
FudanNLP(复旦大学) |
Jcseg |
SCWS |
Friso |
HTTPCWS |
libmmseg |
OpenCLAS |
CRF++ (Bakeoff-3四项第一) |
perminusminus
项目网址:http://code.google.com/p/perminusminus/
作者:张开旭(清华大学2012届博士毕业生,毕业论文,现在厦大教学)。
个人主页:http://nlp.csai.tsinghua.edu.cn/~zkx/
源码是python。算法原理是感知器模型。
Introduction
Per-- is a toolkit of
Features
- Simple and efficient
- Multiple usage: path labeling, path finding, sequence labeling and classification
- Can provide n-best outputs
- Can provide "marginal score"
- Can provide alpha (forward) values and beta (backward) values using
forward-backward algorithm - Open source
Stanford 汉语分词工具
Stanford 汉语分词工具的成绩:2005年Bakeoff2两个语料的测试第一。
官网:http://nlp.stanford.edu/software/segmenter.shtml
最后更新2013-11-12(今天2013-12-28)
一篇使用介绍:
http://hi.baidu.com/liheming333/item/585fba1f898838623e87ce18
斯坦福自然语言小组直接使用CRF 的方法,特征窗口为5。
哈工大语言云(LTP -cloud)
项目网址:http://www.ltp-cloud.com/download/#ltp_cloud_sdk
HIT的ITNLP Lab, HIT
语言云曾获CoNLL2009七国语言句法语义分析评测总成绩第一名,
使用方式为web service。
语言云(语言技术平台云 LTP-Cloud)是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。 后端依托于语言技术平台,语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务。
作为基于云端的服务,语言云具有如下一些优势:
- 免安装:用户只需要下载语言云客户端源代码,编译执行后即可获得分析结果,无需调用静态库或下载模型文件。