NLTK安装过程及相关API介绍

NLTK

Introduction

NLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等。

NLTK官方文档:http://www.nltk.org/

Installation

使用pip进行安装

pip install nltk

测试安装是否成功

import nltk

若没有报错,则说明安装成功。

接下来,需要为NLTK安装一些组件。 打开 python,然后键入:

import nltk
nltk.download()

输入后会弹出一个GUI,选择我们需要下载的内容。建议是如果硬盘容量足够的话,点选all下载所有内容。

img

为所有软件包选择下载“全部”,然后单击“下载”。 这会给你所有分词器,分块器,其他算法和所有的语料库。 NLTK 模块将占用大约 7MB,整个nltk_data目录将占用大约 1.8GB,其中包括分块器,解析器和语料库。

如果下载能够顺利的话,则等待所有数据包缓存结束之后,环境就搭建完成了。

简单样例

  • 分词以及词性标注
    import nltk
    
    sentence = "A high level Israeli army official has said today Saturday that 				Israel believes Iran is set to begin acquiring nuclear capability 				for military purposes from 2005."
    
    tokens = nltk.tokenize.word_tokenize(sentence)	# 分词
    print("tokens: ", tokens)
    
    tagged = nltk.pos_tag(tokens)	# 词性标注
    print("tagged: ", tagged[:6])
    

    输出

    tokens:  ['A', 'high', 'level', 'Israeli', 'army', 'official', 'has', 'said', 'today', 'Saturday', 'that', 'Israel', 'believes', 'Iran', 'is', 'set', 'to', 'begin', 'acquiring', 'nuclear', 'capability', 'for', 'military', 'purposes', 'from', '2005', '.']
    
    tagged:  [('A', 'DT'), ('high', 'JJ'), ('level', 'NN'), ('Israeli', 'NNP'), ('army', 'NN'), ('official', 'NN')]
    
  • nltk中的wordnet
    from nltk.corpus import wordnet
    
    # 利用nltk中的wordnet来获取同义词
    synonyms = []
    for syn in wordnet.synsets("computer"):
        for lemma in syn.lemmas():
            synonyms.append(lemma.name())
    print(synonyms)
    

    输出

    ['computer', 'computing_machine', 'computing_device', 'data_processor', 'electronic_computer', 'information_processing_system', 'calculator', 'reckoner', 'figurer', 'estimator', 'computer']
    

nltk.download()报错解决方案

  1. 大多数时候,整个下载速度是非常慢的,而且下载过程中可能因为过慢而导致下载中止。此时,可以采取其它的办法来配置相应数据包。

    下载链接 https://github.com/nltk/nltk_data

    目前有一些已经下载好的nltk_data文件。下载上面链接中的文件,将packages里的内容复制到上述GUI里的默认下载路径(Download Directory)即可。

  2. 遇到punkt包加载错误:

将punkt文件夹保存到Searched in下给出的任一搜索路径下的nltk_data/文件夹下即可。

punkt文件也在本仓库内给出,可以直接下载。

代码演示

import nltk
from nltk.corpus import wordnet

sentence = "A high level Israeli army official has said today Saturday that Israel believes Iran is set to begin " \
           "acquiring nuclear capability for military purposes from 2005."

tokens = nltk.tokenize.word_tokenize(sentence)
print("tokens: ", tokens)

tagged = nltk.pos_tag(tokens)
print("tagged: ", tagged[:6])


synonyms = []
for syn in wordnet.synsets("computer"):
    for lemma in syn.lemmas():
        synonyms.append(lemma.name())
print(synonyms)

Reference

更多资料可以参考官方文档,或其它资源链接:

官网文档:http://www.nltk.org/

Python自然语言处理工具NLTK学习导引及相关资料: https://www.52nlp.cn/tag/nltk%E4%BB%8B%E7%BB%8D

https://textminingonline.com/dive-into-nltk-part-i-getting-started-with-nltk

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JermeryBesian

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值