基于PageRank算法的热点舆情挖掘
原理:PageRank算法原理
在舆情热点挖掘中引入 PageRank算法思想,构造舆情网络,单个节点的重要性来 自于该网络中其 他成员节点重要性的线性组合,从而建构一个线性方程组, 舆情网络 中各节点的重要性即该线性方程组最大特征值所对应的特征矢量。
以下算法可以用来描述舆情络 的热点挖掘过程 :
(1)取 n个直接或间接链接关系的页面构建舆情网络,每个页面为该网络的节点 ;
(2)建立该舆情网络的邻接矩阵A,其中aij=1表示节点 i与节点j之间存在直接连接;aij=0表示节点i与节点j之间不存在直接连接 ; λ 表示矩阵A的主特征值,主特征值 λ 的特征向量用 e表示 , 即e= (e1,e2,⋯,en );
(3)定义 Xλ =AX , 有 :
使用公式( 3) 计算舆情网络节点的特征向量值, 降序后输出, 得到舆情热点。
应用实例:
以上图所示的简单舆情网络中标注的A、 B、 c、 D