自然语言处理(NLP) 开源软件工具包
基础研究领域
1、文本分类
2、依存分析
3、命名实体
4、词性标注
5、中文分词
6、情感分析
7、信息抽取
8、文本摘要
一、NLTK
NLTLK官方文档地址:http://www.nltk.org/
原文地址:http://www.52nlp.cn/tag/nltk-book
NLTK(Natural Language Toolkit)是最为知名的Python自然语言处理工具,是宾夕法尼亚大学计算机与信息科学系在2001年开发的基于Apache协议的开源软件。NLTK 提供包括WordNet在内的百余个语料资源,以及分类、分词、词干提取、 词性标注、依存分析、语义推断等一系列功能,并维护了一个活跃的开发者论坛。除了免费、开源、社区驱动等特性之外,NLTK还提供了简易的 上手教程和丰富的开发文档,在众多国家的大学课程中作为教学工具广泛使用。
二、OpenNLP
OpenNLP是基于机器学习的Java自然语言处理工具包,是Apache Software Foundation在2010年开发的基于Apache 2.0协议的开源软件。OpenNLP提供 基于机器学习的自然语言文本处理功能,包括标记化、浅层分析&#x