python构建矩阵 x y_python构建分类标签的共现矩阵

共现矩阵是数据挖掘中的重要工具,用于计算分类标签的共现次数,进而评估它们的相关性。本文介绍了如何利用Python构建共现矩阵,包括分隔标签、建立标签字典、计算共现频次等步骤,并提供了代码示例。计算PMI值的过程也进行了简要说明,代码和数据可在github上找到。
摘要由CSDN通过智能技术生成

8b01e101118ae688e0452acddaebdb08.png

共现矩阵可以统计出分类标签同时出现的次数,然后可用于PMI值计算(PMI算法的基本思想是:统计两个分类标签在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高),因此共现矩阵的计算在数据挖掘与分析中有着重要作用。

在此处构建共现矩阵的基本步骤为:首先将每一份文本的标签分隔开并转换成列表,同时建立关于标签的字典,建立空矩阵用于存放标签的共现矩阵,然后计算标签与标签之间的共现频次,最后可取出标签之间的共现频次用于PMI计算。

假设原始输入数据长这样(文本分类后的输出格式,取出了文本ID和Label):

d73436b45f43886cec792877e79bc0d5.png
经过文本分类后的原始输入数据

直接进入代码:

import pandas as pd
pd.set_option('display.max_columns', None)

#将每一份文本的标签隔开&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值