跟大家说个开心的事!!!
又快到期末了!!!
各种课程论文!!!
上周给大家介绍了一款面向中文的自然语言处理工具HanLP,今天给大家介绍另一款面向英文的经典的python自然语言处理工具——NLTK。
NLTK全称“Natural Language Toolkit”,知名的python自然语言处理工具,诞生于宾夕法尼亚大学,以研究和教学为目的而生,因此特别适合入门学习。它提供了易于使用的接口,通过这些接口可以访问的语料库和词汇资源超过50个,还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库,使用起来高效方便。
1 安装并下载语料库
运行之后会出现一个窗口,可以在窗口中对需要的语料库进行下载:
2 简单示例
① 导入用于分词的函数,然后对一段英文文本进行分词,过程如下图所示:
② 处理文本时,我们有时需要去除一些没有意义的词,需要用到停用词表。在语料库中找到英文的停用词表,然后对我们处理的英文文本进行去停用词,过程如下图所示:
③ 在进行一些如情感分析之类的研究时,我们需要筛选一些动词、副词、形容词等可以帮助判断感情的词,我们需要进行词性标注,如下图所示:
④ 对一段英文文本提取关键词时,我们需要用到tf-idf值来帮助我们判断词在文本中的重要性或者在进行文本聚类分析时,需要用tf-idf构建文档-词项矩阵,nltk工具中有十分方便快捷的计算函数:
今天给大家介绍了一款可以用于英文文本的python自然语言处理工具,并做了一些简单常用的函数示例,希望能对大家学习自然语言处理有一些帮助。
该工具还有其他实用有趣的内容,有兴趣更加深入了解学习这个工具的同学可以到官方网站:www.nltk.org,查询详细内容哦~
图文来源 | 学科部 晏超
排版 | 宣传部 郭潇瑾