nlkt中BigramAssocMeasures.pmi()方法的传参和使用

本文介绍了如何使用Python的nltk库中的BigramAssocMeasures.pmi函数来计算特征(如ngram=2的二元组)与类别之间的互信息。关键参数包括特定类别文档数量、两类文档总和以及文档总数。
摘要由CSDN通过智能技术生成

这个问题找遍全网没看到详细的介绍,最后用读代码+数学公式的方法才理解怎么用。

BigramAssocMeasures.pmi

作用:计算x和y的互信息(互信息是什么我就不科普啦)

这里有个误区刚开始我以为是计算两个词之间的依赖程度,但是它其实是可以计算词和类别的依赖程度的。

对照这个:
在这里插入图片描述

所以我就拿t表示特征,c表示类别,要想使用BigramAssocMeasures.pmi()计算t和c的互信息(这里举的例子是二分类问题),需要传参如下:

注意,文档数量也可以理解为词频。且参数1和参数3不能为0。

  • 参数1:“是这个特征也是这个类”的文档数量,是int类型
  • 参数2:[积极类的文档数量, 消极类的文档数量],是一个列表(不是列表也可以,可以迭代就行)
  • 参数3:文档总数,是int类型
from nltk import BigramAssocMeasures

ngram = 2
total = 7
unigram = [4, 3]

# 使用BigramAssocMeasures.pmi()计算互信息
score = BigramAssocMeasures.pmi(ngram, unigram, total)
print(score)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值