NLTK——NLP编程的基础工具

1.NLTK入门

1.下载NLTK,可用pip install nltk,anaconda本身已经有NLTK了,可直接使用。
2.下载NLTK的范例文本,
import nltk
nltk.download()
#下载Collections下的book
3.使用基本函数

3.1 concordance 查找指定词

from nltk.book import *
text1.concordance("monstrous")

3.2 similar 查找与monstrous相关的词,比如出现的上下文相同

text1.silimar("monstrous")

3.3 common_contexts 共用2个或2个以上词汇的上下文

text2.common_contexts(["monstrous","very"])

3.4 dispersion_plot 单词在文章中的分布

text4.dispersion_plot(["citizens","demoracy","freedom","duties","America"])
//需要用到Numpy和Matplotlib,好像Anaconda都有的

这里写图片描述
3.5 generate 产生随机文本

text3.generate()//重复使用源文本中常见的单词和短语,从而使我们能感觉到它的风格和内容。

3.6.1 计数词汇

len(text3)//创世纪有44764个单词和标点符号,也被称作标识符
sorted(set(text3))//用sorted包裹set(text3),得到一个词汇条目的排序表,以各种标点符号开始,然后接着是以A开头的词汇。大写单词排在小写单词前面。通过求集合中各种项目的个数,可以间接获得词汇表的大小。用len获得。
len(set(text3))//2789

3.6.2 测量词汇丰富度

print len(text3)/len(set(text3))  #16.050197... 每个词平均出现了16次

3.6.3 count 计算一个词在文本中出现的次数,和百分比

text3.count("smote")              #5
100*text4.count('a')/len(text4)   #1.4643....
4.将文本当做词链表

链表的连接,append添加元素,索引(下标),index,切片


                
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值