nlkt中BigramAssocMeasures.pmi()方法的传参和使用

RK_Dangerous

已于 2023-12-13 23:05:10 修改

阅读量462

点赞数 7

文章标签： nlp python 自然语言处理

于 2023-12-11 01:03:28 首次发布

本文链接：https://blog.csdn.net/RK_Dangerous/article/details/134917473

版权

本文介绍了如何使用Python的nltk库中的BigramAssocMeasures.pmi函数来计算特征（如ngram=2的二元组）与类别之间的互信息。关键参数包括特定类别文档数量、两类文档总和以及文档总数。

摘要由CSDN通过智能技术生成

这个问题找遍全网没看到详细的介绍，最后用读代码+数学公式的方法才理解怎么用。

BigramAssocMeasures.pmi

作用：计算x和y的互信息（互信息是什么我就不科普啦）

这里有个误区刚开始我以为是计算两个词之间的依赖程度，但是它其实是可以计算词和类别的依赖程度的。

对照这个：
在这里插入图片描述

所以我就拿t表示特征，c表示类别，要想使用BigramAssocMeasures.pmi()计算t和c的互信息（这里举的例子是二分类问题），需要传参如下：

注意，文档数量也可以理解为词频。且参数1和参数3不能为0。

参数1：“是这个特征也是这个类”的文档数量，是int类型
参数2：[积极类的文档数量，消极类的文档数量]，是一个列表（不是列表也可以，可以迭代就行）
参数3：文档总数，是int类型

from nltk import BigramAssocMeasures

ngram = 2
total = 7
unigram = [4, 3]

# 使用BigramAssocMeasures.pmi()计算互信息
score = BigramAssocMeasures.pmi(ngram, unigram, total)
print(score)

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RK_Dangerous

关注关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

JT2Go软件使用方法培训课程之PMI使用方法.pptx

11-16

JT2Go软件使用方法培训课程之PMI使用方法 JT2Go软件是一款功能强大且用户友好的软件，主要用于查看、编辑和共享JT格式的三维模型数据。JT格式是一种开放的、公共的、可由大多数主流MCAD创建的中性3D数据格式，包含...

从文档中提取关键字

猫敷雪

08-10

1737

想象一下你手上有数百万（也许数十亿）的文本文档。无论是社交媒体数据还是社区论坛帖子。生成数据时没有标记。给那些文件贴标签真是费劲。手工标注不实用；现有的标签列表很快就会过时。雇用一家供应商公司来做标记工作太贵了。你可能会说，为什么不使用机器学习呢？比如，普通网络深度学习。但是，神经网络首先需要一些训练数据。并且要适合你数据集的训练数据。那么，有没有一个解决方案可以让我们满足：不需要训练数据。手动干扰最小，可自动运行。自动捕获新单词和短语。这篇文章记录了我是如何在Python中提取关键字，并

参与评论您还未登录，请先登录后发表或查看评论

Python 文本挖掘：使用机器学习方法进行情感分析（一、特征提取和选择）

热门推荐

chenglansky的专栏

06-16

2万+

用Python 进行机器学习及情感分析，需要用到两个主要的程序包：nltk 和 scikit-learn nltk 主要负责处理特征提取（双词或多词搭配需要使用nltk 来做）和特征选择（需要nltk 提供的统计方法）。 scikit-learn 主要负责分类算法，评价分类效果，进行分类等任务。接下来会有四篇文章按照以下步骤来实现机器学习的情感分析。首先是特征提取和选择

pythono nltk 元组

tsf的博客

08-16

557

import nltk #使用 strip()方法删除输入行结尾的换行符。 f=open("LianCheng.txt", 'r', encoding='utf-8',) sents=[] for line in f: sents.append(line.strip().split("\t")) sents[0]['供热', '双方', '室内', '温度', '存在', '争议', '时'

《精通Python自然语言处理（ Deepti Chopra)》读书笔记（第七章）：情感分析

搞点學術的研究生

03-15

1086

《精通Python自然语言处理》 Deepti Chopra(印度) 王威译第七章情感分析：我很快乐情感分析（情感生成）被定义为确定一个字符序列背后所隐含的情感信息的过程。 7.1情感分析简介对电影评价进行情感分析： import nltk import random from nltk.corpus import movie_reviews docs = [(list(movie_...

中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析（转载）...

sungang1120的专栏

01-18

1199

转载：http://blog.sina.com.cn/s/blog_53daccf401011t74.html 分词算法设计中的几个基本原则： 1、颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当...

PMI风险管理和WWPMM风险管理之比较

03-02

目前在全球范围内广泛接受的项目管理方法主要有WWPMM和PMI的项目管理知识体系。其中WWPMM也称全球项目管理方法论（WordWideProjectManagementMethod），是由IBM开发并在全球试点和推广的项目管理方法。它从项目管理...

pmi.rar_PMI_pmi-ir

09-20

总的来说，"pmi.c" 是一个关键的组件，负责在Linux系统中管理和优化与PMI相关的硬件功能。理解其工作原理和实现细节，对于系统管理员、驱动开发者或者任何关注硬件能源效率的人来说都是十分有价值的。

PMI.rar_PMI

09-24

标题中的“PMI.rar_PMI”表明这是一个关于项目管理专业人士协会（Project Management Institute）相关知识的压缩文件。PMI是一个全球知名的非营利组织，致力于推动项目管理专业的发展，其最著名的认证是PMP（项目...

文本分类之情感分析– 去除低信息量的特征

三分地

07-19

6529

当你的分类模型有数百个或数千个特征，由于是文本分类的情况下，许多（如果不是大多数）的特点是低信息量的，这是一个不错的选择。这些特征对所有类都是通用的，因此在分类过程中作出很小贡献。个别是无害的，但汇总的话，低信息量的特征会降低性能。通过消除噪声数据给你的模型清晰度，这样就去除了低信息量特征。它可以把你从过拟合和维数灾难中救出来。当你只使用更高的信息特征，可以提高性能，同时也降低了模型的大小

python 卡方检验原理及应用

6丁儿的猫

12-20

8867

卡方检验，或称x2检验。无关性假设：假设我们有一堆新闻或者评论，需要判断内容中包含某个词（比如6得很）是否与该条新闻的情感归属（比如正向）是否有关，我们只需要简单统计就可以获得这样的一个四格表：组别属于正向不属于正向合计不包含6得很 19 24 43 包含6得很 34 10 44 合计 53 34 87 通过这个四格表我们得到的第一个信息是：内容是否包含

精通Python自然语言处理 2 ：统计语言建模

Just for fun的专栏

05-28

859

代码https://github.com/PacktPublishing/Mastering-Natural-Language-Processing-with-Python1、理解单词频率词的搭配可以被定义为倾向于并存的两个或多个标识符的集合。如The United States Unigram（一元语法）代表单一标识符：以下为Alpino语料库生成unigramsimport nlt...

NLTK入门二：NLTK文本分析初步

weixin_34247032的博客

05-11

477

为什么80%的码农都做不了架构师？>>> ...

nltk中的FreqDist,ConditionalFreqDist和Bigram

zhuzuwei的博客

01-24

6179

1. FreqDist的使用：接受参数words后，会统计words中每个word的频数，并返回一个字典，key是word，value是word在words中出现的频数。 sentences = '异响严重，副驾门异响,不知不觉就到了3000公里首保' sentences2 = '我的小悦也有异响了！' words = jieba.lcut(sentences) words1 = ji...

python 情感分析实例_基于Python的情感分析案例

weixin_36168972的博客

01-28

2503

**情感分析 **又称为倾向性分析和意见挖掘它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程其中情感分析还可以细分为情感极性倾向分析情感程度分析主客观分析等。情感极性分析的目的是对文本进行褒义、贬义、中性的判**情感分析：**又称为倾向性分析和意见挖掘，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，其中情感分析还可以细分为情感极性(倾向)分析，情感程度...

bigram分词

Eliza1130的专栏

04-14

7197

N-gram: P(w1w2w3...wn)=P(w1)P(w2|w1)P(w3|w2,w1)...P(wn|wn-1,wn-2,...,w1)

计词unigram和bigram的频次

红豆和绿豆的博客

07-27

9213

http://blog.csdn.net/niuox/article/details/11395397 在自然语言处理中，我们经常需要用到n元语法模型。其中，有关中文分词的一些概念是我们需要掌握的，譬如： unigram 一元分词，把句子分成一个一个的汉字 bigram 二元分词，把句子从头到尾每两个字组成一个词语 trigram 三元分词，把句子从头到尾每三个字组成一

外星人入侵