python中nltk_NLTK介绍

最新推荐文章于 2021-05-08 22:55:45 发布

weixin_39631519

最新推荐文章于 2021-05-08 22:55:45 发布

阅读量311

点赞数

文章标签： python中nltk

NLTK 大概是最知名的Python自然语言处理工具了，全称"Natural Language Toolkit", 诞生于宾夕法尼亚大学，以研究和教学为目的而生，因此也特别适合入门学习。NLTK虽然主要面向英文，但是它的很多NLP模型或者模块是语言无关的，因此如果某种语言有了初步的Tokenization或者分词，NLTK的很多工具包是可以复用的。

关于NLTK，网上已经有了很多介绍资料，当然首推的NLTK学习资料依然是官方出的在线书籍 NLTK Book：Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit ，目前基于Python 3 和 NLTK 3 ，可以在线免费阅读和学习。早期的时候还有一个基于Python 2 的老版本：http://www.nltk.org/book_1ed/ ，被 O'Reilly 正式出版过，2012年的时候，国内的陈涛同学无偿翻译过一个中文版，我还在这里推荐过：推荐《用Python进行自然语言处理》中文翻译-NLTK配套书，后来才有了基于此版本的更正式的中文翻译版：《Python自然语言处理》。不过如果英文ok的话，优先推荐看目前官方的最新版本：http://www.nltk.org/book/

几年前我尝试写英文博客，觉得可以从NLTK的入门介绍开始，所以写了一个英文系列：Dive into NLTK，基于Python 2，感兴趣的同学可以关注：

这个过程中使用了NLTK中嵌入的斯坦福大学文本分析工具包，发现少了斯坦福中文分词器，所以当时动手加了一个：Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器

斯坦福大学自然语言处理组是世界知名的NLP研究小组，他们提供了一系列开源的Java文本分析工具，包括分词器(Word Segmenter)，词性标注工具(Part-Of-Speech Tagger)，命名实体识别工具(Named Entity Recognizer)，句法分析器(Parser)等，可喜的事，他们还为这些工具训练了相应的中文模型，支持中文文本处理。在使用NLTK的过程中，发现当前版本的NLTK已经提供了相应的斯坦福文本处理工具接口，包括词性标注，命名实体识别和句法分析器的接口，不过可惜的是，没有提供分词器的接口。在google无果和阅读了相应的代码后，我决定照猫画虎为NLTK写一个斯坦福中文分词器接口，这样可以方便的在Python中调用斯坦福文本处理工具。

后来，这个版本在 NLTK 3.2 官方版本中被正式引入：stanford_segmenter.py ，我也可以小自豪一下为NLTK做过一点微小的贡献：

使用NLTK来处理中文是很多同学想干的事情，这方面，在NLTK中调用斯坦福大学的中文工具包刚好是一个切入点，关于NLTK中如何使用斯坦福大学工具包进行中文信息处理，推荐两篇文章：

以及白宁超同学的系列文章：

关于NLTK的书籍，其实还有一本很不错：Python Text Processing with NLTK 2.0 Cookbook ，我之前看过这本，不过现在已经更新到Python 3了：Python 3 Text Processing with NLTK 3 Cookbook 。最后提供一个NLTK相关资料的打包下载，包括早期的中文翻译版和这个Cookbook，仅供个人学习使用，感兴趣的同学可以关注我们的公众号: AINLP, 回复'NLTK'获取相关下载链接：