信息熵对复杂网络中影响节点的识别
识别一组有影响力的节点是复杂网络中的一个重要课题,在市场营销、谣言控制和价值预测等诸多应用中起着至关重要的作用 科学出版物。 在这方面,研究人员已经开发了从简单程度方法到各种复杂方法的算法。 然而,一种更健壮和实用的算法 是任务所必需的在本文中,我们提出了En更新算法,旨在通传播扩展能力。
SIR模型
影响力最大化一般是通过SIR模型来评估算法的效果的。 SIR模型中的每个节点可以分为三种状态,即感知节点(S)、感染节点(I)和恢复节点®。 首先,将初始选定的节点设置为受感染的节点(I)和所有其他在网络中的易感状态节点(S), 在每次传播迭代中,每个感染节点(I)随机选择其直接邻居之一,并以概率 μ \mu μ感染它, 同时,每个受感染的节点(I)将以概率 β \beta β恢复,并且不会再次被感染。在本研究中, λ = μ β \lambda=\frac{\mu}{\beta} λ=βμ被定义为感染率,这对SIR模型中的传播速度至关重要。 显然,经过足够的传播迭代,网络可以达到一个稳定的阶段,没有感染。 为使信息在网络中广泛传播,本文中设定 μ = 1.5 μ c \mu=1.5\mu_c μ=1.5μc,其中 μ c = k k 2 − k \mu_c=\frac{k}{k^2-k} μc=k2−kk,其中k为图中所有节点度的平均值。 当 μ \mu μ小于 μ c \mu_c μc时,在SIR中的传播只能影响很小的范围,甚至根本不能传播。 当它比 μ c \mu_c μc大得多时,几乎所有的方法都会影响整个网络,这种比较毫无意义。 因此,我们在实验上围绕 μ c \mu_c μc选择 μ \mu μ。
Enrenew algroithm
voteRank算法忽略了节点的本地信息,而提出来的Enrenew算法可以克服这个缺点。 任何节点v的信息熵计算方法:
其中,
p
u
v
=
d
u
∑
l
∈
Γ
(
v
)
d
l
,
∑
l
∈
Γ
(
v
)
p
l
v
=
1
p_{uv}=\frac{d_u}{\sum_{l\in{\Gamma_{(v)}}d_l}},\sum_{l\in{\Gamma(v)}}p_{lv}=1
puv=∑l∈Γ(v)dldu,∑l∈Γ(v)plv=1。
H
u
v
H_{uv}
Huv表示从u到v的传播能力。
E
v
E_v
Ev是节点v的信息熵,表明它的初始重要性,由提出的算法更新。
算法如下:
简单地选择度较大的节点作为初始扩展器可能不会取得好的结果。 因为大多数真实的网络都有明显的集群现象,即高密度节点在网络通常在同一个社区中紧密相连。为了解决这种情况,在选择每个具有高影响的节点后,我们对其局部范围内所有节点的信息熵进行更新,然后选择信息熵最高的节点作为传播者。具体过程如算法1所示。其中
E
⟨
k
⟩
=
−
⟨
k
⟩
∗
1
⟨
k
⟩
∗
l
o
g
(
1
⟨
k
⟩
)
E_{\langle k\rangle}=-\langle k\rangle *\frac{1}{\langle k\rangle}*log(\frac{1}{\langle k\rangle})
E⟨k⟩=−⟨k⟩∗⟨k⟩1∗log(⟨k⟩1),其中
⟨
k
⟩
\langle k\rangle
⟨k⟩是图中所有节点度的平均值。
1
2
l
−
1
\frac{1}{2^{l-1}}
2l−11为衰减因子, 节点离节点v越远,对节点的影响就越小。 从算法1中可以看出,在选择一个新节点后,其l长度可达节点信息熵的更新与H和
E
⟨
k
⟩
E_{\langle k\rangle}
E⟨k⟩有关,H和
E
⟨
k
⟩
E_{\langle k\rangle}
E⟨k⟩反映了局部结构信息以及全局网络信息。
与voterank相比,EnRenew以H值代替连接节点之间的投票能力,它考虑了更多的本地信息,而不是直接设置投票能力为1。 同时,EnRenew使用
H
E
⟨
k
⟩
\frac{H}{E_{\langle k\rangle}}
E⟨k⟩H作为衰减因子,而不是
1
⟨
k
⟩
\frac{1}{\langle k\rangle}
⟨k⟩1,保留了全局信息。