nlkt中BigramAssocMeasures.pmi()方法的传参和使用

RK_Dangerous

已于 2023-12-13 23:05:10 修改

阅读量423

点赞数 7

文章标签： nlp python 自然语言处理

于 2023-12-11 01:03:28 首次发布

本文链接：https://blog.csdn.net/rk_dangerous/article/details/134917473

版权

这个问题找遍全网没看到详细的介绍，最后用读代码+数学公式的方法才理解怎么用。

BigramAssocMeasures.pmi

作用：计算x和y的互信息（互信息是什么我就不科普啦）

这里有个误区刚开始我以为是计算两个词之间的依赖程度，但是它其实是可以计算词和类别的依赖程度的。

对照这个：
在这里插入图片描述

所以我就拿t表示特征，c表示类别，要想使用BigramAssocMeasures.pmi()计算t和c的互信息（这里举的例子是二分类问题），需要传参如下：

注意，文档数量也可以理解为词频。且参数1和参数3不能为0。

参数1：“是这个特征也是这个类”的文档数量，是int类型
参数2：[积极类的文档数量，消极类的文档数量]，是一个列表（不是列表也可以，可以迭代就行）
参数3：文档总数，是int类型

from nltk import BigramAssocMeasures

ngram = 2
total = 7
unigram = [4, 3]

# 使用BigramAssocMeasures.pmi()计算互信息
score = BigramAssocMeasures.pmi(ngram, unigram, total)
print(score)

RK_Dangerous

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
nlkt中BigramAssocMeasures.pmi()方法的传参和使用

这里有个误区刚开始我以为是计算两个词之间的依赖程度，但是它其实是可以计算词和类别的依赖程度的。这个问题找遍全网没看到详细的介绍，最后用读代码+数学公式的方法才理解怎么用。注意，文档数量也可以理解为词频。且参数1和参数3不能为0。作用：计算x和y的互信息（互信息是什么我就不科普啦）
复制链接

扫一扫