（1 NLTK学习笔记

最新推荐文章于 2021-01-29 03:43:25 发布

chujiu0

最新推荐文章于 2021-01-29 03:43:25 发布

阅读量133

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/chujiu0/article/details/105322553

版权

4 篇文章 0 订阅

订阅专栏

这篇博客详细介绍了NLTK库的学习，包括如何使用布朗语料库，挑选特定类别，并通过for循环进行优化。同时，作者探讨了网络和聊天文本的处理，如导入webtext语料库，计算文件频率分布，并找到最常出现的单词。对于Mac用户，还分享了处理多版本Python的方法。

摘要由CSDN通过智能技术生成

NLTK学习笔记

1 布朗语料库
导入：

Import nltk
From nltk.corpus import brown

调用语料库中所有的类别：

Print(brown.categories())

在所有的类别中挑选出某几种类别：

Genres=[‘’]
Whwords=[‘’]

使用for循环来进行迭代并优化代码行数：

for I in range(0,len(genres)):genre=genre[i]
print()
print(“analysing’”+genre+”’wh words”)
genre_text = brown.words(categories=genre)

NLTK库的FreqDist函数

fdist = nltk. FreqDist(genre_text)    //简短声明
for wh in whwords:                    //得到每个词的个数
print(wh+’+’,fdist[wh],end=’’)

2 网络和聊天文本
导入库和webtext语料库

import nltk
from nltk.corpus import webtext
print(webtext. fields())

计算文件频率分布

fileid = ‘name.txt’
wbt_words = webtext.words(fileid)
fdist=nltk.FreqDist(wbt_words)

最长出现的单词，和其计数：

print(‘max”’,fdist.max(),’”:’),
fdist[fdist.max()])

fdist.N()函数得到频率分布包中不同单词的计数。
fdist.most_common()找出语料库中最常见的n个单词

mac中多版本python处理方式
python2 -m pip install xxx 或 python3 -m pip install xxx

关注