声明
此文章为影响力最大化的可拓展对抗攻击算法。
文章来自WSDM国际顶级会议,发表于2023年2月份。
摘要
本文研究了动态影响传播模型下社交网络中影响力最大化的对抗攻击问题。主要所做的工作是在一个已知的种子集S中,通过删除有限数量的节点来最小化S的影响传播。这个问题有许多实际意义,例如通过隔离阻止病毒传播、冻结账户阻止谣言宣传等。本文在线性阈值模型(Linear Threshold Model,LT模型)下,采用反向影响力采样的方法,给出了有效反向可达路径的采样方法。
本文提出了三种不同的反向采样设计选择,他们都保证了较小的误差近似和有效的运行时间。
引言
影响力最大化问题(Influence maximization, IM)实质上是在社交网络中寻找一小部分节点,使其产生的影响最大。影响力最大化问题也有许多实际意义和应用,如病毒式的营销推广产品或品牌。然而现实场景中,竞争现象比想象中更为严重,目的也各不相同,比如攻击竞争对手的影响力,控制谣言,或者阻止病毒的传播。
以上所描述的竞争场景,可以建模为试图移除某些节点和边,以最大限度地减少竞争对手在社交网络中的种子集的影响或影响,我们将其称为对抗攻击影响最大化(AdvIM)。
- 构建正式模型
本文对AdvIM问题进行了更正式的建模,将社交网络建模为一个加权网络𝐺 = (𝑉 , 𝐸 , 𝑤),其中𝑉代表网络中的节点,𝐸代表网络中的边,𝑤代表边的权值。在最开始,有固定的种子集S,从S开始传播,整个传播过程遵循经典的线性阈值模型。
AdvIM要做的就是选取一个由节点和边组成的攻击集𝐴【攻击集的节点不能选择种子节点】,并用𝜌𝑆 (𝐴)【表示为去掉和不去掉攻击集𝐴的差异值】描述其影响能力。我们规定攻击集节点和边的预算分别为 q N q_N qN和 q E q_E qE,表示选取的节点和边的数量最多不超过他们。我们要尝试找到能使种子集S的影响能力减到最小的攻击集A, 这也是AdvIM的最终目的。
本文证明在LT模型下,𝜌𝑆 (𝐴)是单调次模的,这也为用贪心算法近似提供了基础。但是直接使用贪心算法效率不高,因为它要从种子集开始,进行大量的传播模拟过程。
本文采用了反向影响力采样(RIS)的方法来设计有效的AdvIM算法,并提出了三种不同的设计算法和理论分析。它们都提供了1/2-𝜀的近似保证。之后,我们将这些方法在不同的真实社交网络上进行了实验评估,证明了我们的方法在运行速度上比基于贪心算法的方法快得多的同时取得了良好的影响削减效果。
本文的贡献在于:
- 突出了对对抗攻击影响力最大化的研究。
- 采用了反向影响力采样(RIS)的方法设计了有效算法,并提供了理论保证。
- 在现实网络上进行模拟,证明我们提出的算法具有有效性和高效性。
- 前人的相关工作
研究人员 | 研究内容 |
---|---|
Domingos & Richardson | 首先提出影响力最大化的概念并且对其进行一定的探索 |
Kempe | 将影响力最大化建模为离散优化问题。建立了独立级联模型、线性阈值模型、触发模型,并提出了一种基于子模块化的贪心逼近算法。 |
此后的众多研究人员 | 提高影响力最大化算法的效率和可扩展性 |
最新和最先进的研究人员 | 基于反向影响采样的方法的研究,例如IMM算法就是RIS方法的代表性算法之一 |
其他一些子方向的研究人员 | 竞争性、互补性、稳健性影响力最大化等 |
其中与本文工作最相似的是竞争影响力最大化,它的目的是在网络中不止一方的情况下实现影响力最大化。换句话说,在网络中传播的信息不只有一种,可能有我们希望传播的和不希望传播的内容。
一项类似的内容也在研究相关问题。这篇文章通过对种子集中单个节点的影响求和来估计种子集的总影响。他们通过前向树模拟进行贪心算法。
我们在这篇文章的研究中,目标函数直接匹配原始的影响力最大化的目标函数。此外,提出了基于RIS的算法来克服前向树模拟的效率问题,同时在近似比和运行时间上提供了理论保证。
模型及问题描述
- 对抗攻击扩散模型
本文中的扩散模型是以线性阈值模型(LT模型)为基础的。
LT模型的基本构成如下
有向影响力扩散图结构:𝐺 = (𝑉, 𝐸, 𝑤),其中:
- 𝑉:有限的节点集合
- 𝐸:𝐸 ⊆ 𝑉 × 𝑉,是两个节点之间相连的有向边
- 𝑤 : 𝐸 → [0, 1] ,表示有向边的影响力
下面给出一个线性阈值模型的实例在线性阈值模型中,我们的信息扩散过程是以时间步长进行的。我们假设时间步长为t。
-
t=0,我们选择一定的节点作为种子集 S 0 S_{0} S0(图中橙色节点为我们所选取的种子集),各个节点都随机选择一个 θ v θ_{v} θv作为该节点的阈值,随后开始传播过程。
-
t=1:我们假设所有节点随机选择的阈值都为0.1,计算A所有入边的权值总和,如果 Σ u : u ∈ S t − 1 , ( u , v ) ∈ E w ( u , v ) ≥ θ v Σ_{u:u∈S_{t-1},(u,v)∈E}w(u,v)≥θ_{v} Σu:u∈St−1,(u,v)∈Ew(u,v)≥θv,即A的入边权值总和大于A所选择的阈值,则将A激活。然后依次对所有节点都进行此过程,尝试激活所有节点。
-
t>1,重复t=1的操作,直到所有该时刻没有节点被激活,则我们已经尽最大努力尝试激活了所有节点,此时扩散过程结束。
上图的例子中,我们最终会激活所有节点。但在现实中的网络中,我们绝大多数情况下是激活不了所有节点的,而且选择不同的节点作为种子集,可能最终得到的结果天差地别。
我们根据所有的节点
v
v
v,可以构建出活边图(live-edge graph):
L
=
(
V
,
E
(
L
)
)
L=(V,E(L))
L=(V,E(L))
在
L
L
L中,一个节点
v
v
v最多有一条边以
w
(
u
,
v
)
w(u,v)
w(u,v)的概率被选择,由此我们可以推断出,没有节点被选择的概率为
1
−
Σ
u
:
(
u
,
v
)
∈
E
w
(
u
,
v
)
1-Σ_{u:(u,v)∈E}w(u,v)
1−Σu:(u,v)∈Ew(u,v)
每一条属于L的边,即
e
d
g
e
(
u
,
v
)
∈
L
edge(u,v)∈L
edge(u,v)∈L,叫做一条活边(live-edge)。
Kempe et al.等人表明,线性阈值模型的传播等同于随机活边图 L L L中广度优先遍历的确定性传播。在该扩散模型中,一个重要的度量叫做*influence spread*,被定义为给定种子集 S 0 S_{0} S0的传播过程中,在结束时被激活节点的预期数量,被表示为 σ ( S 0 ) σ(S_{0}) σ(S0)。
设
Γ
(
G
,
S
)
Γ(G,S)
Γ(G,S)为图G中,可以到达种子集S的节点集合。我们通过上述的等效live-edge图模型,则
σ
(
S
0
)
=
E
L
[
∣
Γ
(
L
.
S
0
)
∣
]
=
Σ
L
P
r
[
L
∣
G
]
⋅
∣
Γ
(
L
,
S
0
)
∣
σ(S_{0}) = E_{L}[|Γ(L.S_{0})|] = Σ_{L}Pr[L|G] · |Γ(L,S_{0})|
σ(S0)=EL[∣Γ(L.S0)∣]=ΣLPr[L∣G]⋅∣Γ(L,S0)∣
其中
E
L
E_{L}
EL表示在活边图
L
L
L分布下的期望,
P
r
[
L
∣
G
]
Pr[L|G]
Pr[L∣G]表示在
G
G
G中采样一个具体的活边图
L
L
L的概率。
根据上述公式,我们可以得到在活边图
L
L
L中存在活边的概率:
p
(
v
,
L
,
G
)
=
{
w
(
u
,
v
)
,
i
f
∃
u
:
(
u
,
v
)
∈
L
1
−
∑
u
:
(
u
,
v
)
∈
E
w
(
u
,
v
)
,
o
t
h
e
r
w
i
s
e
p(v,L,G)=\begin{cases}w(u,v),&if{\exist}u:(u,v)∈L\\1-{\sum}_{u:(u,v){\in}E}w(u,v),&otherwise\end{cases}
p(v,L,G)={w(u,v),1−∑u:(u,v)∈Ew(u,v),if∃u:(u,v)∈Lotherwise
p
(
v
,
L
,
G
)
p(v,L,G)
p(v,L,G)代表在活边图
L
L
L中,一个具体节点
v
v
v配置了入边的概率。也就是在活边图
L
L
L中一个节点
v
v
v存在入边的概率。由此可知,我们得到的一个具体的活边图
L
L
L的概率:
P
r
[
L
∣
G
]
=
∏
v
∈
V
p
(
v
,
L
,
G
)
Pr[L|G]=\prod_{v\in V}p(v,L,G)
Pr[L∣G]=v∈V∏p(v,L,G)
也就是从
G
G
G中得到一个具体活边图
L
L
L的概率为对
L
L
L中的每个节点
v
v
v的
p
p
p相乘。
如果要表示一个具体的影响传播,我们使用 σ ( S 0 , G ) \sigma(S_0,G) σ(S0,G)表示在图 G G G中,选择种子集为 S 0 S_0 S0的影响传播。
这样,我们就定义了所有可能用到的符号或想表示的内容。
- 一些前提条件
- - 子模性
子模性是指边界收益递减的这种特性。如果我们定义一个函数
f
f
f有这样一种性质:
f
(
S
∪
{
u
}
)
−
f
(
S
)
≥
f
(
T
∪
{
u
}
)
−
f
(
T
)
,
S
⊆
T
⊆
V
a
n
d
u
∈
V
∖
T
f(S\cup\{u\})-f(S)\geq f(T\cup\{u\})-f(T),\ \ \ \ S\subseteq T\subseteq V\ and\ u\in V\setminus T
f(S∪{u})−f(S)≥f(T∪{u})−f(T), S⊆T⊆V and u∈V∖T
我们直观地来看这个式子,它表示一个较小集合
S
S
S并入
u
u
u集合的收益不会比较大集合
T
T
T并入集合
u
u
u的收益小。也就是说,当我们的集合越来越大,他获取等量信息时所获得的收益也会越来越小,这就是边界收益递减。
文中我们所用的线性阈值模型的扩散影响
σ
\sigma
σ就是一个单调子模函数。我们介绍子模性的目的,是因为非负单调次模函数在求解最大化问题中有重要性质:他是生成贪心解的前提。 并且这个解的近似比为
1
−
1
/
e
1-1/e
1−1/e。这也是最大化问题的技术基础。
- 影响力最大化对抗攻击
我们上文铺垫了对抗攻击的基本模型,下面我们要回归到文章的核心部分,影响力最大化对抗攻击。
传统的影响力最大化问题,是选择一个最多有
k
k
k个节点的种子集
S
0
S_0
S0,来最大化影响传播
σ
(
S
0
,
G
)
\sigma(S_0,G)
σ(S0,G)。
我们所要探讨的影响力最大化对抗攻击(Adversarial Attacks Influence Maximization,AdvIM)在一定程度上和影响力最大化问题相似又相反,它是要求我们寻找一个点集 q N q_N qN和一个边集 q E q_E qE从图 G G G中删除,从而使影响传播 σ \sigma σ最小。
为了方便描述这个过程,我们首先定义所要求的联合集合
A
A
A为包含节点和边的一个集合。
其中节点集
A
N
⊆
V
∖
S
A_N\subseteq V\setminus S
AN⊆V∖S,边集
A
E
⊆
E
A_E\subseteq E
AE⊆E,联合集合
A
=
A
N
∪
A
E
A=A_N\cup A_E
A=AN∪AE。
下面我们定义一些概念,用以描述对抗攻击这一过程。
- - Def 1. 影响削减(Influence Reduction)
给定一个种子集
S
S
S,在攻击集
A
A
A下的影响削减用
ρ
S
(
A
)
\rho_S(A)
ρS(A)来表示,它被定义为:
ρ
S
(
A
)
=
σ
(
S
,
G
)
−
σ
(
S
,
G
′
)
,
G
′
=
G
∖
A
\rho_S(A)=\sigma(S,G)-\sigma(S,G'),\ \ \ \ \ \ \ G'=G\setminus A
ρS(A)=σ(S,G)−σ(S,G′), G′=G∖A
简单来说,就是除去联合集
A
A
A后影响传播(influence spread)的减小量。
- - Def 2. 影响力最大化对抗攻击(The Adversarial Attacks on Influence Maximization , AdvIM)
影响力最大化对抗攻击是在线性阈值模型下,输入包括下列:
有向图
G
=
(
V
,
E
,
w
)
G=(V,E,w)
G=(V,E,w)、种子集
S
S
S、攻击节点集预算
q
N
q_N
qN、攻击边集预算
q
E
q_E
qE;
的影响力最优化问题。
最终的目标是要找到一个攻击集
A
A
A(不包含种子集
S
S
S),从图中除去这些节点和边,从而使影响力削减最大。即:
A
∗
=
a
r
g
m
a
x
A
:
∣
A
N
∣
≤
q
N
,
∣
A
E
∣
≤
q
N
ρ
S
(
A
)
A^*=argmax_{A:|A_N|\leq q_N,|A_E|\leq q_N}\rho_S(A)
A∗=argmaxA:∣AN∣≤qN,∣AE∣≤qNρS(A)
在定义算法前,我们首先明确
ρ
S
\rho_S
ρS函数是单调次模的,这为我们接下来的工作提供了理论基础。下面,我们引入几个定理,将用于证明函数的单调次模性。
- - Lemma 1. LT模型下的 ρ S ( A ) \rho_S(A) ρS(A)函数满足单调次模性。
此部分暂时不在此详述。
AdvIM的高效算法
上述证明 ρ S ( A ) \rho_S(A) ρS(A)函数的单调子模性使得贪心算法可以用于此问题。我们是通过反向影响采样(RIS)来加速贪心速度。我们提供了基于IMM的算法框架——AAIMM。AAIMM依赖于有效的反向可达路径(VRR)采样。
- AAIMM框架
所有的影响力最大化算法都基于RIS方法,该方法会生成适当数量的反向可达路径(RR path)用于估计。在本文中我们对RIS方法在LT模型中生成RR path的过程进行了调整。
假设我们现在有一个固定的种子集
S
S
S,
L
L
L是在图
G
=
(
V
,
E
,
w
)
G=(V,E,w)
G=(V,E,w)中随机生成的活边图(live-edge graph)。
我们已经在上文提到,对于 L L L这个活边图中的每个节点,我们最多选择一条入边作为活边。这样,我们最多在 L L L中找到一条指向该节点 v v v的边,我们设这条边为 ( u 1 , v ) ∈ L (u_1,v)\in L (u1,v)∈L。
我们令
u
0
=
v
u_0=v
u0=v,这样我们从
u
i
∈
V
u_i\in V
ui∈V开始,最多可以找到一个节点
u
i
+
1
∈
V
u_{i+1}\in V
ui+1∈V,存在边
(
u
i
+
1
,
u
i
)
∈
L
(u_{i+1},u_i)\in L
(ui+1,ui)∈L。重复上述过程,我们定义如果我们找到节点
u
j
u_j
uj满足以下三个条件的任何一个,则此过程结束,代表该VRR的寻找过程结束:
(a)
u
j
u_j
uj为种子节点,即
u
j
∈
S
u_j\in S
uj∈S;
(b)不存在任意节点
u
u
u到
u
j
u_j
uj的边,即
n
o
e
d
g
e
(
u
,
u
j
)
∈
E
(
L
)
no \ edge(u,u_j)\in E(L)
no edge(u,uj)∈E(L);
(c)产生回路,即
(
u
,
u
j
)
∈
E
(
L
)
s
a
t
i
s
f
i
e
s
u
∈
{
u
0
,
…
,
u
j
−
1
}
(u,u_j)\in E(L) \ satisfies\ u\in\{u_0,…,u_{j-1}\}
(u,uj)∈E(L) satisfies u∈{u0,…,uj−1}。
此过程我们称之为从根 v v v的反向模拟过程,并且将生成的从 u j u_j uj到 u 0 u_0 u0的路径称为在活边图 L L L下的根 v v v的反向可达路径(RR path),表示为 P L , v P_{L,v} PL,v。
设 V E ( P L ) VE(P_L) VE(PL)为RR路径 P L P_L PL的联合集,其中包括节点和边。
如果一个RR path P L P_L PL的路径中包含种子节点,则称该RR path是有效RR路径(VRR path);否则,称该路径是无效路径。直观上来说,种子集 S S S的影响可以通过VRR path到达根节点 v v v,攻击路径上的任何节点和边都会减小种子集 S S S的影响。
我们用 P L S P_L^S PLS表示在种子集S下的RR path。如果 P L P_L PL有效,则 P L S = P L P_L^S=P_L PLS=PL;若 P L P_L PL无效,则 P L S = ∅ P_L^S=\emptyset PLS=∅。我们设定 n − = ∣ V ∣ − ∣ S ∣ n^-=|V|-|S| n−=∣V∣−∣S∣, σ − ( S ) = σ ( S ) − ∣ S ∣ \sigma^-(S)=\sigma(S)-|S| σ−(S)=σ(S)−∣S∣,且 Ⅱ { } Ⅱ\{\} Ⅱ{}作为指示函数。
- - Lemma 2. 联系有效路径和影响削减
ρ
S
(
A
)
=
n
−
⋅
E
L
[
Ⅱ
{
A
∩
V
E
(
P
L
S
)
≠
∅
}
]
=
σ
−
(
S
)
⋅
E
L
[
Ⅱ
{
A
∩
V
E
(
P
L
)
≠
∅
}
∣
S
∩
V
E
(
P
L
)
≠
∅
]
\begin{aligned}\rho_S(A)=&n^-·E_L[Ⅱ\{A\cap VE(P_L^S)\ne \empty\}] \\ =&\sigma^-(S)·E_L[Ⅱ\{A\cap VE(P_L)\neq \empty\}\mid S\cap VE(P_L)\neq \empty]\end{aligned}
ρS(A)==n−⋅EL[Ⅱ{A∩VE(PLS)=∅}]σ−(S)⋅EL[Ⅱ{A∩VE(PL)=∅}∣S∩VE(PL)=∅]
上述式子不在此证明。
总结来说,上述性质意味着我们可以从原始空间中采样足够多的RR path,从而准确估计出变量的影响削减。更重要的是,根据Lemma 2.的证明,我们可以选择与VRR path相交最多的节点和边的最优集合来找到最优攻击集。从而,我们就根据RIS方法,将影响力削减最大化问题转化为了最大覆盖问题。
AAIMM算法包含两个步骤:
- 估计所需要的VRR路径数;
- 通过贪婪选择实现最大覆盖问题。
上图为AAIMM的核心算法步骤。
Phase 1. 我们估计了
θ
\theta
θ(可能用到的VRR path的数量),并且生成了VRR path;
Phase 2. 根据贪心算法查找覆盖最多VRR path的节点
q
N
q_N
qN和边
q
E
q_E
qE。
此方法是基于IMM算法的,但是AAIMM算法与其主要的区别是,我们需要对VRR path进行采样,而不是简单地对RR path采样。AAIMM的解空间为 ( n − q N ) \begin{pmatrix} n^- \\ q_N \end{pmatrix} (n−qN) ( m q E ) \begin{pmatrix} m \\ q_E \end{pmatrix} (mqE),而IMM的解空间为 ( n k ) \begin{pmatrix} n \\ k \end{pmatrix} (nk)。令 A ∗ A^* A∗为AdvIM的最优解,OPT= ρ S ( A ∗ ) \rho_S(A^*) ρS(A∗)。
- - Lemma 3. AAIMM所需的有效路径估计
对于所有
ε
>
0
\varepsilon>0
ε>0和
ι
>
0
\iota>0
ι>0, 保证近似比的概率至少为
1
−
1
n
ι
1-\frac{1}{n^\iota}
1−nι1所需要的VRR path为:
O
(
(
q
N
log
n
−
+
q
E
log
m
+
ι
log
n
−
)
⋅
σ
−
(
S
)
O
P
T
⋅
ε
2
)
O(\frac{(q_N\log n^-+q_E\log m+\iota \log n^-)·\sigma^-(S)}{OPT·\varepsilon^2})
O(OPT⋅ε2(qNlogn−+qElogm+ιlogn−)⋅σ−(S))
不在此证明。
影响力最大化对抗攻击的特殊情况是仅攻击节点或仅攻击边,即 q E = 0 q_E=0 qE=0或 q N = 0 q_N=0 qN=0。我们进行的贪心算法先从候选空间 C C C中搜索所有的节点和边,然后选择边际影响削减最大的一个。如果节点或者边的预算耗尽,就在候选空间 C C C中删除所有剩余的节点或边。
- - Theorem 1. 预期结果和时间保证的
对于所有
ε
>
0
\varepsilon>0
ε>0和
ι
>
0
\iota>0
ι>0, 保证近似比的概率至少为
1
−
1
n
ι
1-\frac{1}{n^\iota}
1−nι1,输出的解
A
o
A^o
Ao满足
ρ
S
(
A
o
)
≥
(
1
2
−
ε
)
ρ
S
(
A
∗
)
\rho_S(A^o) \geq(\frac{1}{2}-\varepsilon)\rho_S(A^*)
ρS(Ao)≥(21−ε)ρS(A∗)
运行时长的期望为:
O
(
(
q
N
log
n
−
+
q
E
log
m
+
ι
log
n
−
)
⋅
σ
−
(
S
)
O
P
T
⋅
ε
2
⋅
E
R
P
V
)
O(\frac{(q_N\log n^-+q_E\log m+\iota \log n^-)·\sigma^-(S)}{OPT·\varepsilon^2}·ERPV)
O(OPT⋅ε2(qNlogn−+qElogm+ιlogn−)⋅σ−(S)⋅ERPV)其中
E
R
P
V
ERPV
ERPV为生成一条路径的平均时间。
根据上述公式,我们得到了AAIMM的近似比和运行时间的理论保证。
- 有效路径采样
有效路径采样(VRR Path Samping)是AAIMM算法的关键部分。文章讨论了三种采样方法,并对这些方法进行了测试和评价。
- - 朴素有效路径采样(Naive VRR Path Sampling)
从一个随机的根节点
v
v
v生成一个RR路径,如果有效就返回,否则重新生成一条新的路径。
由上图算法框架可知,如果要生成一条VRR path(有效反向可达路径),需要生成多条RR path(反向可达路径),因为只有少部分RR path是包含种子集的。生成一条VRR路径,我们通常需要生成
n
−
/
σ
−
(
S
)
n^-/\sigma^-(S)
n−/σ−(S)条RR路径。这意味着此时
E
R
P
V
=
E
R
P
⋅
n
−
/
σ
−
(
S
)
ERPV=ERP·n^-/\sigma^-(S)
ERPV=ERP⋅n−/σ−(S),
E
R
P
ERP
ERP代表生成一条RR路径所用的平均时间。采用朴素VRR路径采样方法的AAIMM期望运行时间为
O
(
(
q
N
log
n
−
+
q
E
log
m
+
ι
log
n
−
)
⋅
n
−
O
P
T
⋅
ε
2
⋅
E
R
P
)
O(\frac{(q_N\log n^-+q_E\log m+\iota \log n^-)·n^-}{OPT·\varepsilon^2}·ERP)
O(OPT⋅ε2(qNlogn−+qElogm+ιlogn−)⋅n−⋅ERP)
- - 前后向有效路径采样(Forward-Backward VRR Path Sampling)
上文提到的朴素采样方法,会浪费大量的RR path。为了避免这个情况,我们可以先从种子集
S
S
S出发,通过前向模拟生成前向森林,记录
S
S
S有可能到达的节点和边,而后选择根节点
v
v
v时,我们限制只能在前向森立中包含的节点选择。这样,我们选择到的根
v
v
v一定能到达种子集
S
S
S。VRR path就为从
S
S
S到
v
v
v的路径。
Theorem 3. 前后想有效路径采样
采用前后向有效路径采样的AAIMM的期望运行时间为:
O
(
(
q
N
log
n
−
+
q
E
log
m
+
ι
log
n
−
)
⋅
σ
−
(
S
)
O
P
T
⋅
ε
2
⋅
E
F
F
(
S
)
)
O(\frac{(q_N\log n^-+q_E\log m+\iota\log n^-)·\sigma^-(S)}{OPT·\varepsilon^2}·EFF(S))
O(OPT⋅ε2(qNlogn−+qElogm+ιlogn−)⋅σ−(S)⋅EFF(S))
其中
E
F
F
(
S
)
EFF(S)
EFF(S)为从种子集
S
S
S生成前向森林所用的时间。
虽然我们利用前后向采样方法生成有效路径节省了对无效的RR path的采样,但它也会生成一个完整的前向森林,这个生成过程有可能比采样所有反向路径开销更大。因此我们要权衡朴素采样方法和前后向采样:如果 E F F ( S ) / E R P < n − / σ − ( S ) EFF(S)/ERP<n^-/\sigma^-(S) EFF(S)/ERP<n−/σ−(S),则前后向采样更快;否则,朴素采样方法会更快。
- - DAG反向可达模拟(Reverse-Reachable Simulation with DAG)
朴素采样会浪费无效的RR path采样,前后向采样会浪费前向森林中的许多分支,我们想要寻求一种方法,能做到不会浪费太多资源并能进行正确的采样。
我们通过对边重新加权的方法,发现了一种基于有向无环图(DAG) 的方法:
首先我们明确
G
G
G为一个有向无环图。
a
p
v
(
S
)
apv(S)
apv(S)为
S
S
S为种子时,节点
v
v
v被激活的概率。我们可以得到:
a
p
v
(
S
)
=
∑
u
∈
N
−
(
v
)
a
p
u
(
S
)
⋅
w
(
u
,
v
)
ap_v(S)=\sum_{u\in N^-(v)}ap_u(S)·w(u,v)
apv(S)=u∈N−(v)∑apu(S)⋅w(u,v)
上述是在DAG图中对VRR path进行采样的算法(DAG-VRR-path)。
之所以说它能做到不会浪费太多资源,是因为不能被种子集 S S S激活的节点u都将导致边 ( u , v ) (u,v) (u,v)权重赋为0,因此在反向采样过程中不会被采样。所以它总是朝着种子集 S S S采样,并且在种子集 S S S结束,且输出的路径始终是有效的。
需要特别指出,以上所有内容,都是依赖于 G G G是一个DAG。当原始图不是DAG时,我们需要将原图转化为DAG。现在有许多成熟的转化DAG的方法,不在此赘述。
实验评估
- 数据和算法
- - 数据集
DBLP
DBLP是一个数据挖掘的数据集。其中每个节点都是一个作者,每条边表示了两位作者合作撰写了一篇论文。原始DBLP是一个包含
6.54628
×
1
0
5
6.54628 × 10^5
6.54628×105节点和
3.980
个
318
×
1
0
6
3.980个318 × 10^6
3.980个318×106条有向边的图。由于计算机内存有限,我们从原始图中随机抽取
1.000000
×
1
0
5
1.000 000 × 10^5
1.000000×105个节点及其
7.47178
×
1
0
5
7.471 78 × 10^5
7.47178×105条有向边。
NetHEPT
NetHEPT数据集被广泛用于许多影响最大化研究。它是arXiv的“高能物理理论”部分从1991年到2003年的学术合作网络,其中节点代表作者,每条边代表两个节点共同撰写的一篇论文。我们通过去除重复边来清理数据集,得到一个有向图
G
=
(
V
,
E
)
G=(V,E)
G=(V,E),
∣
V
∣
=
1.5233
×
1
0
4
|V|=1.5233 × 10^4
∣V∣=1.5233×104,
∣
E
∣
=
6.2774
×
1
0
4
|E|=6.2774 × 10^4
∣E∣=6.2774×104(有向边)。
Flixster
Flixster数据集是一个美国社交电影发现服务网络。为了将数据集转换为加权图,每个用户由一个节点表示,如果𝑣在𝑢对同一部电影进行评级后不久对一部电影进行评级,则形成从节点𝑢到𝑣的有向边。Flixster图包含
2.9357
×
1
0
4
2.9357 × 10^4
2.9357×104个节点和
2.126
个
14
×
1
0
5
2.126个14 × 10^5
2.126个14×105个有向边。
DM
DM数据集是从ArnetMiner档案(aminer.org)中提取的数据挖掘研究人员网络,其中节点表示研究人员,每个边是任意两个研究人员之间的论文合著者。DM是这里的小数据集,它只包含
6.79
×
1
0
2
6.79×10^2
6.79×102节点和
3.374
×
1
0
3
3.374×10^3
3.374×103有向边。
- - 算法
AA-FF
AA-FF是前向森林贪心算法。它并没有使用VRR path,而是在每次传播前模拟一个前向森林。我们将模拟次数设置为了10000次。
AA-IMM-Naive
AA-IMM-Naive是朴素VRR路径模拟的AAIMM算法,如算法1和算法2所示。AA-IMMNaive需要为足够的VRR路径生成足够的RR路径,因为大多数朴素RR路径无法触及种子集𝑆。
AA-IMM-FB
AA-IMM-FB是具有正向向后VRR路径模拟的AAIMM算法,如算法1和算法3所示。与AA-IMM-Naive不同,在AA-IMM-FB中不会浪费任何路径,因为这里的所有路径都是从正向森林中随机选择的VRR路径。为了公平地比较AA-FF的运行时间,我们选择采样相同数量的前向森林模拟。结果表明,与AA-FF相比,AA-IMM-FB可以节省更多的计算机内存和计算能力。
AA-IMM-DAG
AA-IMM-DAG是基于DAG的AAIMM算法。如算法1和算法4所示。在从DAG模拟VRR路径之前,我们需要首先创建一个与相同的DAG。与以往的RIS方法相比,AA-IMM-DAG是VRR路径采样速度最快的方法。
对于以上数据集,我们使用了10000次Monte Carlo模拟来估计上述方法的影响传播。
- 结果
我们在具有𝑘种子预算的AdvIM上测试了实验中提出的四种算法,即AA-FF、AA-IMM-Naive、AA-IMMFB和AA-IMM-DAG算法。在所有的测试中,我们分别为DM、Flixster、NetHEPT和DBLP设置了种子集𝑘= 50、100、200、300,并测试了 q E q_E qE和 q N q_N qN的不同组合。下面给出结果。
图中横轴(x轴)为与预算,纵轴(y轴)为影响传播。
一般来说,AAIMM-DAG和AA-FF都可以在不同任务下获得最佳表现。下面对比运行时间。
所有的IMM算法都比AA-FF有效得多,AA-FF甚至无法完成DBLP的测试。在三种RIS算法中,AA-IMM-DAG算法是最快的,AA-IMM-Naive算法次之,AA-IMM-FB算法是最慢的。更重要的是,AA-IMM-DAG至少比其他所有算法快将近10倍。所以用AA-IMM-DAG或AA-IMM-FB是比较好的选择,AA-FF最差。
- 讨论
AA-FF算法占用了过多的内存空间。对于RR path的模拟,无论原始的种子集有多大,我们每次只保存一条路径。但在AA-FF模拟中,森林的大小还与种子集的大小有关,如果目标有100个节点,那么AA-FF算法的模拟每次就会有100个子树。所以AA-FF算法在现实生活中并不具有应用意义。
总结
本文研究了影响最大化(AdvIM)任务的对抗性攻击问题,并提出了求解AdvIM问题的有效算法。我们采用RIS方法来提高AdvIM任务的效率。实验结果表明,我们的算法比以往的方法更有效。以下是相关领域有价值的未来方向:
1、一个方向是研究对不确定性网络或动态网络的影响最大化。我们也可以在不知道种子集的情况下研究阻断影响传播。
2、另一个方向是对较少数量的正向森林进行理论分析。对抗性攻击对其他影响传播模型也可以进行探索。