python去除英文_韦编 | NLTK——面向英文的python自然语言处理工具

0fcc97e7050b8d2b64eb084691fcc9c8.gif

跟大家说个开心的事!!!

又快到期末了!!!

各种课程论文!!!

7d89c741b0787b5e8031eb8336e336d0.png

上周给大家介绍了一款面向中文的自然语言处理工具HanLP,今天给大家介绍另一款面向英文的经典的python自然语言处理工具——NLTK

NLTK全称“Natural Language Toolkit”,知名的python自然语言处理工具,诞生于宾夕法尼亚大学,以研究和教学为目的而生,因此特别适合入门学习。它提供了易于使用的接口,通过这些接口可以访问的语料库和词汇资源超过50个,还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库,使用起来高效方便。

3e9dcfdb19ab520e5c6457c978b984f0.gif

1 安装并下载语料库

fd3a1683a85570b7c3f8606c1360c08c.png

运行之后会出现一个窗口,可以在窗口中对需要的语料库进行下载:

7e205c16ad255bd68a0e77c0b8d5ad75.png 3e9dcfdb19ab520e5c6457c978b984f0.gif

2 简单示例

导入用于分词的函数,然后对一段英文文本进行分词,过程如下图所示:

5522a518d9d815b78f3a5015f2f2b916.png

 处理文本时,我们有时需要去除一些没有意义的词,需要用到停用词表。在语料库中找到英文的停用词表,然后对我们处理的英文文本进行去停用词,过程如下图所示:

94b53d25c0cc7dd5e1dc23808c7b81bb.png

在进行一些如情感分析之类的研究时,我们需要筛选一些动词、副词、形容词等可以帮助判断感情的词,我们需要进行词性标注,如下图所示:

7880fffffccc7cb0fcd6901d9caec4da.png

对一段英文文本提取关键词时,我们需要用到tf-idf值来帮助我们判断词在文本中的重要性或者在进行文本聚类分析时,需要用tf-idf构建文档-词项矩阵,nltk工具中有十分方便快捷的计算函数:

9ba017ef3feb95565a8c6c40af16e6cc.png

今天给大家介绍了一款可以用于英文文本的python自然语言处理工具,并做了一些简单常用的函数示例,希望能对大家学习自然语言处理有一些帮助。

该工具还有其他实用有趣的内容,有兴趣更加深入了解学习这个工具的同学可以到官方网站:www.nltk.org,查询详细内容哦~

0fcc97e7050b8d2b64eb084691fcc9c8.gif

图文来源 | 学科部 晏超

排版 | 宣传部 郭潇瑾

26946e329a6c76abe72ba5b4b584a10a.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值