论文笔记——Influence Maximization on Undirected Graphs: Toward closing the (1 − 1/e) Gap

从理论计算机角度出发进行Influence MaximizationHeuristic algorithm

Influence Maximization(IM)领域的算法主要分为两类,像是之前看到的VoteRank,K-shell等影响力最大化算法都是启发式算法(Heuristic algorithm),从网络结构出发设计算法选取种子节点。作为IM领域的另一个分支,近似算法(Approximate Algorithm)是从理论计算机(TCS)角度出发解决IM问题,最经典的就是贪心算法(Greedy Algorithm),被证明达到了 1 − ( 1 / e ) 1-(1/e) 1(1/e)的近似。这类算法和启发式算法最大的区别就是具有理论保证,也就是这类算法在任何网络上最坏的情况下也能跑到某个近似值,相较而言稳定了许多。这篇论文是发表在计算机经济学顶会上的一篇paper,属于近似算法,从TCS角度进行了IM问题的探讨。其主要贡献为:
IM在IC和LT模型上都是APX-hard(对于任意常数 τ \tau τ,IM都存在 1 − τ 1- \tau 1τ的不可近似性)。同样,对于特殊的模型如uniform 以及加权的IC模型也具有APX-hardness的近似。 该paper的主要贡献如下:
在这里插入图片描述
也就是下图中红色的部分:
在这里插入图片描述

1、铺垫

1.1 IC和LT模型

对于这两个非常经典的模型就不展开细讲了,这里主要是对它们的live-edge版本(live-edge interpretation)进行阐述。

IC模型的live-edge版本

I C ^ G ( S ) \widehat{IC}_G(S) IC G(S)为集合 S S S通过概率为 p u , v p_{u,v} pu,v的边的可达集,那么 I C ^ G ( S ) \widehat{IC}_G(S) IC G(S)则和IC模型等同。值得一提的是,对于uniform IC模型(所有的边权重相同,为一个参数),节点 u u u v v v的信息传递 = = =节点 v v v u u u的传递;而在weighted IC模型中节点 u u u v v v的信息传递 ≠ \neq =节点 v v v u u u的传递, w ( u , v ) = 1 d e g ( v ) , w ( v , u ) = 1 d e g ( u ) w(u,v)=\frac{1}{deg(v)},w(v,u)=\frac{1}{deg(u)} w(u,v)=deg(v)1,w(v,u)=deg(u)1;对于无向图(undirected graph),将它看作特殊的有向图。

LT模型的live-edge版本

较IC模型更复杂。设 L T ^ G ( S ) \widehat{LT}_G(S) LT G(S)为集合 S S S的可达集,其中,对于节点 v v v的邻居 u 1 , . . . , u T u_1,...,u_T u1,...,uT,第 t t t条边被选中的条件为 r ∈ [ ∑ i = 1 t − 1 w u i , v , ∑ i = 1 t w u i , v ] r \in [\sum_{i=1}^{t-1}w_{u_i,v},\sum_{i=1}^{t}w_{u_i,v}] r[i=1t1wui,v,i=1twui,v],当 r > ∑ i = 1 T w u i , v r > \sum_{i=1}^{T}w_{u_i,v} r>i=1Twui,v时, v v v不进行选边。这里的 r r r便为概率, [ ∑ i = 1 t − 1 w u i , v , ∑ i = 1 t w u i , v ] [\sum_{i=1}^{t-1}w_{u_i,v},\sum_{i=1}^{t}w_{u_i,v}] [i=1t1wui,v,i=1twui,v]便为LT模型中的阈值。

为了直观地理解这个模型,设 v v v为一个尚未受感染的顶点, I N ( v ) IN(v) IN(v)为其一组已感染的邻居节点, v v v I N ( v ) IN(v) IN(v)中的顶点感染的概率为 P r ( θ ≤ ∑ u : u ∈ I N ( v ) w ( u , v ) ) = ∑ u : u ∈ I N ( v ) w ( u , v ) Pr(\theta \leq \sum_{u:u \in IN(v)}w(u,v))=\sum_{u:u \in IN(v)}w(u,v) Pr(θu:uIN(v)w(u,v))=u:uIN(v)w(u,v)。同样,节点 u u u v v v的传播在uniform LT模型(每条边 ( u , v ) (u,v) (u,v)的权重为 1 d e g ( v ) \frac{1}{deg(v)} deg(v)1)以及undirected LT模型中依然是不对称的。

1.2 PCP定理

对于3-SAT的一个案例 ϕ \phi ϕ,存在常数 d d d以及 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1]使得 ϕ \phi ϕ中的每个变量最多出现 d d d次,则有:
在这里插入图片描述
由PCP定理可得出一个extension:对于图 G = ( V , E ) G=(V,E) G=(V,E),同样存在常数 d d d以及 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1]使得图中节点的度最多为 d d d,节点个数为 ∣ V ∣ = 3 n |V|=3n V=3n,且有:
在这里插入图片描述
另一个extension:对于无向图 G = ( V , E ) G=(V,E) G=(V,E),存在常数 d d d以及 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1]使得图中节点的度最多为 d d d,对于整数 k k k,有:
在这里插入图片描述
证明过程详见论文。

2、APX-hardness

对于uniform IC和LT模型,有:
在这里插入图片描述
对于加权的IC模型,有:
在这里插入图片描述
通过在UIC上引入下面的问题
在这里插入图片描述
很明显,这里要证明方法肯定是将IM问题规约到 I n d S e t IndSet IndSet问题。简单总结一下,通过给一个 I n d S e t IndSet IndSet的instance添加哑节点,使得所有节点的度都为 d d d,那么当 I n d S e t IndSet IndSet是一个yes instance时(这里用到了公式 a n − b n = ( a − b ) ( a n − 1 + a n − 2 b + a n − 3 b 2 + . . . + b n − 1 ) a^n-b^n=(a-b)(a^{n-1}+a^{n-2}b+a^{n-3}b^2+...+b^{n-1}) anbn=(ab)(an1+an2b+an3b2+...+bn1)),可以推出:
在这里插入图片描述
I n d S e t IndSet IndSet是NO instance时,推出:
在这里插入图片描述
不难发现No下的小于yes下的,因此另
在这里插入图片描述

同样,在LT模型上也引入了定理:
在这里插入图片描述
3.5的证明过程如下:
在这里插入图片描述

LT模型难点在于所有边的概率 p ( u , v ) p(u,v) p(u,v)已经由节点的度决定了,所以 p p p难以进行调整。在这篇paper中,作者使用了一个小技巧:通过给所有的点都连接哑节点(Dummy nodes),使得所有节点的度为 D D D,且 D D D足够大。如此一来, p p p的影响就会减小。
对于加权的IC模型,则有:
在这里插入图片描述
WIC的证明方法和ULT类似。
对本章进行总结,也是对定理3.2的总结。这里便是文章观点的核心内容。
在这里插入图片描述
这个定理也是一个不可近似性,和前面不一样的情况是,YES instance对应了基本上所有点都会被传染。一般的不可近似性说的是yes和no之间有一个gap,但是并没有保证yes对应了多少,no对应了多少。这个定理说的是,即便是yes对应了几乎是N的值,这个不可近似性结论仍然成立。

3、upper bounds

这一章分别对LT、UIC、WIC进行上界分析。可以理解为从不同角度(节点的局部特征)对 I n f M a x InfMax InfMax进行了分析。首先引入"lift"这一概念。
在这里插入图片描述
如图所示,lift是原图 G G G的变种,用 G ^ \widehat{G} G 表示,存在两个性质: G ^ \widehat{G} G 中的节点数目 ≥ G \geq G G中节点数目,且种子节点与非种子节点的连边数目保持一致。

3.1 Uniform IC model

在这里插入图片描述

3.2 Linear threshold models

这里要证明的是在LT模型中,每一个种子节点传播个数的上限。可以理解为是从不同角度对我们称该过程为“缩水”。
在这里插入图片描述
证明如下:下图为一个非常简单的t树 T T T。对于parent节点 u u u,一旦 u u u被感染,其三个children也会被感染( p ( u , v ) = 1 d e g ( v ) p(u,v)=\frac{1}{deg(v)} p(u,v)=deg(v)1=1),故左边的图和右边的图有着同样的效果。得证。
Lamma 4.3 的作用:一个节点在添加了dummy nodes之后,其感染节点的期望仍然不变。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
这个推论表明,LT模型在无向图中,在树结构上能达到最大程度的传播力度,而往树结构中添加边往往会造成传播能力的下降。该结论与常识相悖,这是因为添加边这一操作,会对LT模型以及WIC(weighted IC)模型中的节点造成度的变化,进而影响了节点的信息传播能力。总而言之,在图中添加边这一操作,弊大于利。

3.3 Weighted IC model

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.4 Refined upper bounds

在这里插入图片描述
由于
在这里插入图片描述
故定理4.9和4.10进一步缩小了上界。

这里进一步对“lift”进行改造。Seed依然是root,这里与之前“lift”不同的是,与seed相邻的非种子节点作为中间商赚差价,连接了邻居中的seed nodes和非seed nodes。下图中的 G ^ A b \widehat{G}_A^{b} G Ab便是新的lift。
在这里插入图片描述
对定理4.9进行证明:在 G ^ A b \widehat{G}_A^{b} G Ab中去掉种子节点S,那么 G ^ A b \widehat{G}_A^{b} G Ab就成了以中间商为root的树了。对这棵树进行缩水(Lamma 4.3),便可得到中间商及其邻居,中间商以 δ v d e g ( v ) \frac{\delta_v}{deg(v)} deg(v)δv的概率,去感染其非种子邻居,个数为 d e g ( v ) − δ v deg(v)-\delta_v deg(v)δv。故该次感染总期望为:
在这里插入图片描述
中间商进行缩水
得证。
接着是对Lamma 4.10的证明:和上述证明一致,在缩水之后,每个中间商感染其邻居的概率为 ( 1 − ( 1 − 1 d e g ( v ) δ v ) ) ≤ δ v d e g ( v ) (1-(1-\frac{1}{deg(v)}^ {\delta_v})) \leq \frac{\delta_v}{deg(v)} (1(1deg(v)1δv))deg(v)δv,个数为 d e g ( v ) − δ v deg(v)-\delta_v deg(v)δv。故该次感染总期望为:
在这里插入图片描述
最后,对于Uniform IC,根据假设 p < 1 d p < \frac{1}{d} p<d1,有:
在这里插入图片描述
由于实践中基本上不可能有 p < 1 d p < \frac{1}{d} p<d1,故不再展开UIC的讨论。

4 总结


在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值