1、java自然语言处理 LingPipe
LingPipe是一个自然语言处理的Java开源工具包。Lingpipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测、聚类、字符语言建模、医学文献下载/解析/索引、数据库文本挖掘、中文分词、情感分析、语言辨别等API。
下载地址:http://alias-i.com/lingpipe/web/download.html
2、中文自然语言处理工具包 FudanNLP
FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集
FudanNLP目前实现的内容如下:
(1)、中文处理工具
a、中文分词
b、词性标注
c、实体名识别
d、语法分析
f、时间表达式识别
(2 ) 、信息检索
a、文本分类
b、新闻聚类
c、Lucene中文分词
(3)、机器学习
a、Average Perceptron
b、Passive-aggressive Algorithm
c、K-means
d、Exact Inference
3、自然语言处理工具 OpenNLP
OpenNLP是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的NLP任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等
4、自然语言处理工具 CRF++
CRF++是著名的条件随机开源工具,也是目前综合性能最佳的CRF工具,CRF++本身已经是一个比较老的工具了,但鉴于其性能比较好,仍然是自然处理很重要的一个工具