(1 NLTK学习笔记

这篇博客详细介绍了NLTK库的学习,包括如何使用布朗语料库,挑选特定类别,并通过for循环进行优化。同时,作者探讨了网络和聊天文本的处理,如导入webtext语料库,计算文件频率分布,并找到最常出现的单词。对于Mac用户,还分享了处理多版本Python的方法。
摘要由CSDN通过智能技术生成

NLTK学习笔记

(1 NLTK学习笔记

1 布朗语料库
导入:

Import nltk
From nltk.corpus import brown

调用语料库中所有的类别:

Print(brown.categories())

在所有的类别中挑选出某几种类别:

Genres=[‘’]
Whwords=[‘’]

使用for循环来进行迭代并优化代码行数:

for I in range(0,len(genres)):genre=genre[i]
print()
print(“analysing’”+genre+”’wh words”)
genre_text = brown.words(categories=genre)

NLTK库的FreqDist函数

fdist = nltk. FreqDist(genre_text)    //简短声明
for wh in whwords:                    //得到每个词的个数
print(wh+’+’,fdist[wh],end=’’)

2 网络和聊天文本
导入库和webtext语料库

import nltk
from nltk.corpus import webtext
print(webtext. fields())

计算文件频率分布

fileid = ‘name.txt’
wbt_words = webtext.words(fileid)
fdist=nltk.FreqDist(wbt_words)

最长出现的单词,和其计数:

print(‘max”’,fdist.max(),’”:’),
fdist[fdist.max()])

fdist.N()函数得到频率分布包中不同单词的计数。
fdist.most_common()找出语料库中最常见的n个单词

mac中多版本python处理方式
python2 -m pip install xxx 或 python3 -m pip install xxx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值