自然语言处理--nltk安装及wordnet使用详解

环境:python2.7.10

首先安装pip

在https://pip.pypa.io/en/stable/installing/ 下载get-pip.py

然后执行 python get-pip.py 将自动安装pip

 

nltk是python的一个扩展包,提供自然语言处理工具集

安装nltk

sudo pip install -U nltk

import nltk

然后下载语料库

nltk.download()

弹出窗口如下,按需下载,我选择的是book

下载完成查看目录:

其中corpora为语料库,也可以下载自己需要的语料库:http://www.nltk.org/nltk_data/

corpora中有好多文章和字典,如古腾堡,路透社等文章,wordnet是面向语义的词典,names里包含了好多名字,stopwords包含了可忽略的语法上的高频词汇,words包含平时常用的单词可用来做拼写检查,

还有city_database,webtext,unicode_samples等语料。

使用时需要import,如:

from nltk.corpus import gutenberg

from nltk.corpus import stopwords

 

wordnet语料库:

wordnet是普林斯顿大学创建的语义词典,特点是其中包含了大量的单词间的联系,可以看作是一个巨大的词汇网络。

词与词之间的关系可以为同义,反义,上下位(水果-苹果),整体部分(汽车-轮胎)。建立关系是大脑学习的首要过程,知识的脉络必定可达,孤立点会被遗忘。

引入wordnet

from nltk.corpus import wordnet as wn

wordnet API:http://www.nltk.org/howto/wordnet.html

synsets()用来查询一个单词,返回结果是Synset数组,一个Synset由 单词-词性-序号 组成:

 

 

 

 





转载于:https://www.cnblogs.com/luangeng/p/5824076.html

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值