python自然语言处理-使用NLTK做统计分析

最新推荐文章于 2024-07-11 08:30:12 发布

perfecttshoot

最新推荐文章于 2024-07-11 08:30:12 发布

阅读量4.9k

点赞数 3

分类专栏：自然语言处理文章标签： ntlk 自然语言处理 python bigrams

本文链接：https://blog.csdn.net/wanght89/article/details/78222287

版权

NLTK模块在自然语言处理中用于生成统计信息，如单词计数、频率和词性。虽然简单的统计任务可能不需要如此强大的工具，但其深度分析功能强大。Text对象是进行统计分析的基础，可以方便地创建2-gram和n-gram模型，用于复杂文本序列搜索和分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLTK很擅长生成一些统计信息，包括对一段文字的单词数量，单词频率和单词词性的统计。如果你只需要做一些简单直接的计算（如，计算一段文字中不重复单词的数量），导入NLTK模块就太大材小用了--它是一个非常大的模块。但是，如果你还需要对文本做一些更有深度的分析，那么里面有很多函数可以帮你完成任何需要的统计指标。

用NLTK做统计分析一般是从Text对象开始的。Text对象可以直接通过下面的方法用简单的Python字符串来创建：

from nltk import word_tokenize
from nltk import Text
tokens=word_tokenize("Here is some not very interesting text")
text=Text(tokens)

word_tokens函数的参数可以是任何Python字符串。如果你手边没有任何长字符串，但是还想尝试一些功能，在NTLK库里已经内置了几本书，可以通过import函数导入：

from nltk.book import *

这样会加载九本书，加载结果如下图所示：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

perfecttshoot

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python与自然语言处理库NLTK

吃不胖.

08-12

647

5.2 基于统计的命名实体识别器基于统计的命名实体识别器是根据已标注的语料库学习实体和实体类型之间的映射关系，并将其应用于新的文本中。4.3 基于统计的词性标注器基于统计的词性标注器是根据已标注的语料库学习单词和词性之间的映射关系，并将其应用于新的文本中。5.1 基于规则的命名实体识别器基于规则的命名实体识别器是根据预定义的规则将文本中的实体识别出来的识别器。4.2 基于规则的词性标注器基于规则的词性标注器是根据预定义的规则将单词标注为其所属的词性的标注器。也可以只下载需要使用的数据集和模型。

Python 自然语言处理：使用 NLTK 和 SpaCy 进行文本分析

热门推荐

飞翔的荷兰人号

03-16

2万+

使用Python+NLTK实现英文单词词频统计使用PythonNLTK实现英文单词词频统计应用场景 Fork Me 参考运行环境流程步骤图详细步骤读取文件过滤特殊符号以及还原常见缩写单词分词词形还原 NLTK 单词的TAG 词形还原统计词频结果写入文件应用场景本人近来想要提高英语水平，决定从直接看英文书籍开始做起，在选择英文书的时候，我需要了解这本书的词汇量以及词频，这样在遇到生词

python nltk语义分析_Python自然语言工具包(NLTK)入门

weixin_39562340的博客

11-21

938

在本期文章中，小生向您介绍了自然语言工具包（Natural Language Toolkit），它是一个将学术语言技术应用于文本数据集的 Python 库。称为“文本处理”的程序设计是其基本功能；更深入的是专门用于研究自然语言的语法以及语义分析的能力。鄙人并非见多识广，语言处理（linguistic processing）是一个相对新奇的领域。如果在对意义非凡的自然语言工具包（NLTK）的说明...

python nltk语义分析_nltk协同语义分析

weixin_29159441的博客

02-09

532

我尝试使用python的NLTK库并遵循Neo-davidson事件表示法构建一个语义解析器。我已经建立了我的语法来包含正确解析的语义特征，但是我在协调成分方面很困难。例如，我的语法有：PropN[SEM=] -> 'Mary'PropN[SEM=] -> 'John'IV[SEM=] -> 'drinks'NP[SEM=?np] -> PropN[SEM=?np]VP[S...

python nltk语义分析_使用Python引入NLTK进行情感分析

weixin_42515377的博客

02-09

1278

本文是使用Python和开源自然语言工具包NLTK进行情感分析系列的第一篇。本文介绍了一些关键的NLP概念，并开始使用自然语言工具包(NLTK)Python库。我们将简要概述自然语言处理(NLP)，介绍用于Python的NLTK，并解释如何使用它解决复杂的NLP问题。随着社区的发展，会有大量的对话，理解该群体的整体情绪是很难的，但也许更重要的是要理解和识别有用的客户反馈。我将演示如何开始使用Pyt...

利用python中的nltk库及正则表达式实现英文单词词频及出现年份统计

ayaishere_的博客

01-31

954

英语单词词频及出现年份统计

Python31 自然语言处理NLP之NLTK的使用

Argulo的博客

07-11

1545

从长文本中提取关键内容生成摘要。

Python自然语言处理工具包nltk-3.4.5安装指南

NLTK，即自然语言处理工具包（Natural Language Toolkit），是一个强大的Python语言库，用于符号和统计自然语言处理（NLP）。它广泛用于人工智能领域，尤其是对于机器学习任务而言，NLTK提供了一系列接口，帮助研究...

自然语言处理--NLTK 函数 RegexpTokenizer分词

糯米君的博客

12-20

2972

若要按照自己的规则进行分词,使用正则分词器：RegexpTokenizer from nltk.tokenize import RegexpTokenizer sentence = """Thomas Jefferson began building Monticello at the age of 26.""" # 按照自己的规则进行分词,使用正则分词器 # \w 匹配字母、数字、下划线 # 匹配任何非空白字符 tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+

Python安装nltk使用Ngram

01-09

1万+

1、Python的安装 https://www.python.org/downloads/ 下载并安装Python，我安装的是2.7的版本 2、nltk的安装 https://pypi.python.org/pypi/nltk 下载并安装nltk 3、打开Python的IDLE 输入这两行，下载的时候选择all（文件大小约0.98G）。如果已经有nlt

python利用nltk工具，数文件夹中所有文本文件的频率最高的单词

BigData_ming的博客

07-04

904

Life is tooooo short , you need python. 这两天看了下nltk（Natural Language Processing Toolkit）工具包，在感受着其强大功能的时。An idea comming ,既然这是一个工具，那能不能真正的用起来了。那么前段时间看到晚上一些关于统计字符的样题，不是可以完美匹配嘛。下面是一个小样例：from nltk impor...

python英文分词统计词频_数据分析-词频统计-nltk自然语言处理

weixin_39797758的博客

11-24

841

读取数据由于我们之前是吧每个职位都存储为单个的csv文件，所以我们先把它们的details职位要求细节信息读取出来。代码如下，具体说明参照之前的文章。#cell-1定义读取细节的函数defreadDetail(fileName):withopen(fileName,'r')asf:job=json.load(f)details=job['details'].lower()det...

nltk自然语言处理

dao_0123的博客

08-05

426

使用[f(x) for x in text]对文本的每一项目进行操作。

python+NLTK 自然语言学习处理七：N-gram标注

dianjie9145的博客

04-15

520

在上一章中介绍了用pos_tag进行词性标注。这一章将要介绍专门的标注器。首先来看一元标注器，一元标注器利用一种简单的统计算法，对每个标识符分配最有可能的标记，建立一元标注器的技术称为训练。 from nltk.corpus import brown brown_tagged_sents=brown.tagged_sents(categories='news') brown_sents...

NLTK入门一：文本的信息统计、搜索和词频统计概览

weixin_34283445的博客

04-17

1494

为什么80%的码农都做不了架构师？>>> ...

python nltk 10 分析句子的意思

lakomi的博客

07-23

1288

10 分析句子的意思Analyzing the Meaning of Sentences1 自然语言理解1.1 查询数据库1.2 自然语言，语义学和逻辑学2 命题逻辑英文文档 http://www.nltk.org/book/ 中文文档 https://www.bookstack.cn/read/nlp-py-2e-zh/0.md 以下编号按个人习惯 Analyzing the Meaning of Sentences 1 自然语言理解 1.1 查询数据库利用语法，将自然语言解析成SQL，并执行

自然语言处理基础技术工具篇之NLTK

AI小白入门的博客

01-05

2315

统计自然语言处理的基础学习之一

viewcode的专栏

09-04

8806

1. NLP的一些基本概念和问题计算机如何处理自然语言？理性主义：其实就是纯粹使用规则的方法处理自然语言，并认为这些语言规则天生就存在人的基因中。在计算机中重现这些规则，就能学会人的语言处理能力。经验主义：认为人有感知和学习能力，通过概括、模式识别、联想等能力，来学习到自然语言的结构。哲学上的问题，类似于起源之类，就先别考虑的。统计方法在NLP中的地位是什么？