NLTK自然语言处理(2)NLTK常用命令

搜索文本

相似上下文

similar() 用来查看与目标词出现在相似上下文中的词。第一个参数是目标词,第二个参数是相似词的个数,默认num=20

共同上下文

common_contexts() 可以查看一个列表中的词的共同上下文

单词的位置信息离散图

dispersion_plot() 可以用离散图表示词的位置信息,横轴表示从文本开头算起前方有多少词。

单词计数

文本长度

len() 文本长度计算的是单词与标点或者叫做“标识符”的数量的总和

词汇表

set() 可以生成文本的词汇表,即将重复的标识符合并后生成的列表

单词个数与单词占比

count() 可以直接返回某单词在文本中的个数

100*text4.count('a')/len(text4)#单词a的占比

平均词长、句长、每个词出现次数

 for fileid in gutenberg.fileids():
 num_chars = len(gutenberg.raw(fileid)) #字符数
 num_words = len(gutenberg.words(fileid))#词数
 num_sents = len(gutenberg.sents(fileid))#句子数
num_vocab = len(set(w.lower() for w in gutenberg.words(fileid)))#不区分大小写不重复词数
print(round(num_chars/num_words), round(num_words/num_sents), round(num_words/num_vocab), fileid)
#输出平均词长、平均句子长度、本文中每个词出现的平均次数(我们的词汇多样性得分)

简单的统计

频率分布

频率分布类中定义的函数

fdist = FreqDist(samples) 创建包含给定样本的频率分布
fdist[sample] += 1	增加样本的数目
fdist['monstrous']	计数给定样本出现的次数
fdist.freq('monstrous')	给定样本的频率
fdist.N()	样本总数
fdist.most_common(n)	最常见的n 个样本和它们的频率
for sample in fdist:	遍历样本
fdist.max()	数值最大的样本
fdist.tabulate()	绘制频率分布表
fdist.plot()	绘制频率分布图
fdist.plot(cumulative=True)	绘制累积频率分布图
fdist1 |= fdist2	使用fdist2 更新fdist1 中的数目
fdist1 < fdist2	测试样本在fdist1 中出现的频率是否小于fdist2

条件频率分布

当语料文本被分为几类,如文体、主题、作者等时,可以计算每个类别独立的频率分布,这将允许我们研究类别之间的系统性差异。
条件频率分布是频率分布的集合,每个频率分布有一个不同的“条件”。这个条件通常是文本的类别。
ConditionalFreqDist()
条件频率分布需要给每个事件关联一个条件。
所以不是处理一个单词词序列,我们必须处理的是一个配对序列
每个配对的形式是:(条件, 事件)

细粒度的选择词

按字符长度选择单词

多重条件选择单词

词语搭配和双连词

bigrams() 获取了包含传入词汇的双连词。
collocations() 从两个语料库中获取了一些搭配,一个“搭配”是经常在一起出现的词序列。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值