NLTK学习笔记

最新推荐文章于 2022-09-14 09:27:16 发布

洪洪

最新推荐文章于 2022-09-14 09:27:16 发布

阅读量347

点赞数

分类专栏：智能客服

智能客服专栏收录该内容

5 篇文章 0 订阅

订阅专栏

学习参考书： http://nltk.googlecode.com/svn/trunk/doc/book/

1. 使用代理下载数据

nltk.set_proxy("**.com:80")

nltk.download()

2. 使用sents(fileid)函数时候出现：Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource:

import nltk

nltk.download()

安装窗口中选择'Models'项，然后'在 'Identifier' 列找 'punkt，点击下载安装该数据包

3. 语料Corpus元素获取函数

from nltk.corpus import webtext

webtext.fileids() #得到语料中所有文件的id集合

webtext.raw(fileid) #给定文件的所有字符集合

webtext.words(fileid) #所有单词集合

webtext.sents(fileid) #所有句子集合

4. 文本处理的一些常用函数

假若text是单词集合的列表

len(text) #单词个数

set(text) #去重

sorted(text) #排序

text.count('a') #数给定的单词的个数

text.index('a') #给定单词首次出现的位置

FreqDist(text) #单词及频率，keys()为单词，*[key]得到值

FreqDist(text).plot(50,cumulative=True) #画累积图

bigrams(text) #所有的相邻二元组

text.collocations() #找文本中频繁相邻二元组

text.concordance("word") #找给定单词出现的位置及上下文

text.similar("word") #找和给定单词语境相似的所有单词

text.common_context("a“,"b") #找两个单词相似的上下文语境

text.dispersion_plot(['a','b','c',...]) #单词在文本中的位置分布比较图

text.generate() #随机产生一段文本

to be c on tinued

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

洪洪

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

TensorFlow 库的介绍

ybcrazy的博客

07-04

8703

（1）numpy　　numpy 是用来存储和处理大型矩阵的科学计算包，比 Python 自身的嵌套列表结构 list 要高效的多。　　安装：pip install numpy --upgrade　(2) matplotlib　　matplotlib 是 Python 最著名的绘图表，它提供了一整套和 MATLAB 相似的命令 API，十分适合交互式地进行制图。　　安装：pip install ma...

nltk 中的 sents 和 words

TensorFlowNews

08-01

2713

nltk 中的 sents 和 words ，为后续处理做准备。 #!/usr/bin/env python # -*- coding: utf-8 -*- from nltk.corpus import gutenberg sents = gutenberg.sents("burgess-busterbrown.txt") print(sents[1:20]) words =

参与评论您还未登录，请先登录后发表或查看评论

nltk(3)——语料库

wang735019的专栏

12-29

7406

NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库，例如：nltk.corpus 每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表，可以通过语料库的fileids()方法。 import nltk.corpus.brown #导入brown语料库 brown.fileid

NLP工具——NLTK 安装及使用

ling620的专栏

08-09

9090

文章目录1、介绍2、安装3.1 安装NLTK3.2 安装NLTK Data交互式安装通过命令行安装手动安装3、Demo4、使用4.1 搜索文本（Searching Text）4.2 统计词频4.3 WordNet 1、介绍【官网】Natural Language Toolkit — NLTK 3.4.4 documentation 【github】NLTK Source NLTK最初成立于200...

NLTK异常问题 [nltk_data] Error loading reuters: ＜urlopen error [Errno 11004] [nltk_data] getaddrinfo

daiyigaku的博客

09-07

6244

在学习NLP项目时，经常会用到nltk工具包，但经常在import后使用的时候出现报错的情况我们可以看到在错误提示里有让我们去download(‘reuters’)但是按照提示的方法去下载时会报如下错误出现这样的问题时要怎么解决？这里介绍三种方法

NLTK学习笔记(一)

weixin_43886056的博客

07-26

1861

NLTK学习笔记(一) 文章目录NLTK学习笔记(一)一、概述二、NLTK语料库2.1 语料库处理API三、分词和分句四、词频统计五、单词分布六、词性标注七、去除停用词八、NLTK中的wordnet九、文本预处理9.1 词干提取9.2 词形还原 NLTK，全称Natural Language Toolkit，自然语言处理工具包，是NLP研究领域常用的一个Python库，由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块，至今已有超过十万行的代码。这是一

（2 NLTK学习笔记

chujiu0的博客

04-11

240

1、分词 NLTK内置的分词器 from nltk.tokenize import LineTokenizer,SpaceTokenizer,TweetTokenizer from nltk import word_tokenize LineTokenizer字符串拆分成行： lTokenizer=LineTokenizer（）； print(“output:”, lTokenizer.toke...

NLTK学习笔记——使用叶贝斯分类器性别鉴定

weixin_40943549的博客

09-20

817

一、性别鉴定步骤根据名字男女规律进行判断建立分类器 • 1. 确定输入特征——特征提取器 • 2. 划分数据集 • 3. 使用训练集构建分类器 • 4. 使用测试集测试分类器效果二、叶贝斯分类器原理特征：假设选取名字的最后一个字母为主要特征类别：男性、女性贝叶斯公式：P(B|A)=P(A|B)*P(B)/P(A...

文本分类决策树 python_NLTK学习笔记(六):利用机器学习进行文本分类

weixin_39535283的博客

12-05

539

关于分类文本，有三个问题怎么识别出文本中用于明显分类的特征怎么构建自动分类文本的模型相关的语言知识按照这个思路，博主进行了艰苦学习(手动捂脸。。)一、监督式分类：建立在训练语料基础上的分类训练过程中，特征提取器将输入转化为特征集，并且记录对应的正确分类。生成模型。预测过程中，未见过的输入被转换特征集，通过模型产生预测标签。特征提取器和朴素贝叶斯分类器特征提取器返回字典，这个字典被称为特征集。然后利...

NLTK学习笔记——Classify模块（2）

cangqiong112758的博客

03-03

2769

注：本文为实战过程作铺垫，因为参考原文是英文的，每看一遍都要琢磨一遍单词和语法，因此总结一下原文的过程，以备忘之用。本文主要介绍原文中利用NLTK进行twitter语句分类的过程，在下一节就记录本人的实战过程。参考：http://www.cnblogs.com/wentingtu/archive/2012/04/07/2436583.html 首先与NLTK的例子（即通过name判断gend

完整用CNN(Tensorflow)完成文本分类的工程

12-12

网站的用Tensorflow完成文本分类任务的完整工程代码包括：训练、运行、和评估所有的代码。打包文件里面还包含了一个影评标记过的影评的语料库。开箱即用

快速下载NLTK数据集nltk_data的方法

henanlion的博客

02-01

7039

NLTK是一个非常实用的自然语言处理工具箱，但是其中的数据集下载比较麻烦，而且非常容易中断，有没有快速下载此数据集的方法呢，笔者提供了以下三种方法供大家参考。一、github方法(可以需要代理支持) 打开网址：GitHub - nltk/nltk_data: NLTK Data下载压缩包后进行解压。二、使用代理的方法电脑科学上网后，在cmd下运行python，import nltk, nltk.download()，实现自动下载，如果速度快的话，很快就可以下载到本地，这种方法好处是不用自己.

NLTK（自然语言工具包）

sikh_0529的博客

09-14

1万+

NLTK 模块的示例用法安装 NLTKNLTK 需要 Python 版本 3.7、3.8、3.9 或 3.10对于 Windows 用户，强烈建议您阅读本指南以成功安装 Python 3。

python nltk.download报错_python – HTTP：nltk.download()的代理验证错误

weixin_39763033的博客

12-10

257

我正在使用nltk.download()下载我需要的软件包.但我收到以下错误.root@nishant-Inspiron-1545:/home/nishant/Dropbox/DDP/data# pythonPython 2.7.3 (default, Apr 10 2013, 05:09:49) [GCC 4.7.2] on linux2Type "help", "copyright", "c...

Python3.6 + TensorFlow 安装（Windows 64 bit）