共现矩阵可以统计出分类标签同时出现的次数,然后可用于PMI值计算(PMI算法的基本思想是:统计两个分类标签在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高),因此共现矩阵的计算在数据挖掘与分析中有着重要作用。
在此处构建共现矩阵的基本步骤为:首先将每一份文本的标签分隔开并转换成列表,同时建立关于标签的字典,建立空矩阵用于存放标签的共现矩阵,然后计算标签与标签之间的共现频次,最后可取出标签之间的共现频次用于PMI计算。
假设原始输入数据长这样(文本分类后的输出格式,取出了文本ID和Label):
直接进入代码:
import pandas as pd
pd.set_option('display.max_columns', None)
#将每一份文本的标签隔开&#x