1. Java自然语言处理 LingPipe
LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等API。
下载链接:http://alias-i.com/lingpipe/web/download.html
2.中文自然语言处理工具包 FudanNLP
FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。
演示地址: http://jkx.fudan.edu.cn/nlp/query
FudanNLP目前实现的内容如下:
- 中文处理工具
- 中文分词
- 词性标注
- 实体名识别
- 句法分析
- 时间表达式识别
- 信息检索
- 文 本分类
- 新闻聚类
- Lucene中文分词
- 机 器学习
- Average Perceptron
- Passive-aggressive Algorithm
- K-means
- Exact Inference
3.自然语言处理工具 OpenNLP
OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等。
4.自然语言处理工具 CRF++
CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。CRF++本身已经是个比较老的工具了,但鉴于其性能较好,仍然是自然语言处理很重要的一个工具。
NlpBamboo 中文分词库在使用该工具。
下载链接:http://sourceforge.net/projects/crfpp/files/