论文笔记——Influence Maximization on Undirected Graphs: Toward closing the (1 − 1/e) Gap

从理论计算机角度出发进行Influence MaximizationHeuristic algorithm

Influence Maximization（IM）领域的算法主要分为两类，像是之前看到的VoteRank，K-shell等影响力最大化算法都是启发式算法（Heuristic algorithm），从网络结构出发设计算法选取种子节点。作为IM领域的另一个分支，近似算法（Approximate Algorithm）是从理论计算机（TCS）角度出发解决IM问题，最经典的就是贪心算法（Greedy Algorithm），被证明达到了 $1 - (1/ e)$ 的近似。这类算法和启发式算法最大的区别就是具有理论保证，也就是这类算法在任何网络上最坏的情况下也能跑到某个近似值，相较而言稳定了许多。这篇论文是发表在计算机经济学顶会上的一篇paper，属于近似算法，从TCS角度进行了IM问题的探讨。其主要贡献为：
IM在IC和LT模型上都是APX-hard（对于任意常数 $\tau$ ，IM都存在 $\tau$ 的不可近似性）。同样，对于特殊的模型如uniform 以及加权的IC模型也具有APX-hardness的近似。该paper的主要贡献如下：
在这里插入图片描述
也就是下图中红色的部分：

1、铺垫

1.1 IC和LT模型

对于这两个非常经典的模型就不展开细讲了，这里主要是对它们的live-edge版本（live-edge interpretation）进行阐述。

IC模型的live-edge版本

设 $\widehat{IC}_G(S)$ 为集合 $S$ 通过概率为 $p_{u,v}$ 的边的可达集，那么 $\widehat{IC}_G(S)$ 则和IC模型等同。值得一提的是，对于uniform IC模型(所有的边权重相同，为一个参数)，节点 $u$ 到 $v$ 的信息传递 $=$ 节点 $v$ 到 $u$ 的传递；而在weighted IC模型中节点 $u$ 到 $v$ 的信息传递 $\neq$ 节点 $v$ 到 $u$ 的传递， $w(u,v)=\frac{1}{deg(v)},w(v,u)=\frac{1}{deg(u)}$ ；对于无向图（undirected graph），将它看作特殊的有向图。

LT模型的live-edge版本

较IC模型更复杂。设 $\widehat{LT}_G(S)$ 为集合 $S$ 的可达集，其中，对于节点 $v$ 的邻居 $u_1,...,u_T$ ，第 $t$ 条边被选中的条件为 $\in [\sum_{i=1}^{t-1}w_{u_i,v},\sum_{i=1}^{t}w_{u_i,v}]$ ，当 $\sum_{i=1}^{T}w_{u_i,v}$ 时， $v$ 不进行选边。这里的 $r$ 便为概率， $[\sum_{i=1}^{t-1}w_{u_i,v},\sum_{i=1}^{t}w_{u_i,v}]$ 便为LT模型中的阈值。

为了直观地理解这个模型，设 $v$ 为一个尚未受感染的顶点， $I N (v)$ 为其一组已感染的邻居节点， $v$ 被 $I N (v)$ 中的顶点感染的概率为 $Pr(\theta \leq \sum_{u:u \in IN(v)}w(u,v))=\sum_{u:u \in IN(v)}w(u,v)$ 。同样，节点 $u$ 和 $v$ 的传播在uniform LT模型（每条边 $(u, v)$ 的权重为 $\frac{1}{deg(v)}$ ）以及undirected LT模型中依然是不对称的。

1.2 PCP定理

对于3-SAT的一个案例 $\phi$ ，存在常数 $d$ 以及 $\gamma \in [0,1]$ 使得 $\phi$ 中的每个变量最多出现 $d$ 次，则有：
在这里插入图片描述
由PCP定理可得出一个extension：对于图 $G = (V, E)$ ，同样存在常数 $d$ 以及 $\gamma \in [0,1]$ 使得图中节点的度最多为 $d$ ，节点个数为 $∣ V ∣ = 3 n$ ，且有：

另一个extension：对于无向图 $G = (V, E)$ ，存在常数 $d$ 以及 $\gamma \in [0,1]$ 使得图中节点的度最多为 $d$ ，对于整数 $k$ ，有：
在这里插入图片描述
证明过程详见论文。

2、APX-hardness

对于uniform IC和LT模型，有：
在这里插入图片描述
对于加权的IC模型，有：

通过在UIC上引入下面的问题

很明显，这里要证明方法肯定是将IM问题规约到 $I n d S e t$ 问题。简单总结一下，通过给一个 $I n d S e t$ 的instance添加哑节点，使得所有节点的度都为 $d$ ，那么当 $I n d S e t$ 是一个yes instance时（这里用到了公式 $a^n-b^n=(a-b)(a^{n-1}+a^{n-2}b+a^{n-3}b^2+...+b^{n-1})$ ），可以推出：
在这里插入图片描述
当 $I n d S e t$ 是NO instance时，推出:

不难发现No下的小于yes下的，因此另

同样，在LT模型上也引入了定理：
在这里插入图片描述
3.5的证明过程如下：

LT模型难点在于所有边的概率 $p (u, v)$ 已经由节点的度决定了，所以 $p$ 难以进行调整。在这篇paper中，作者使用了一个小技巧：通过给所有的点都连接哑节点（Dummy nodes），使得所有节点的度为 $D$ ，且 $D$ 足够大。如此一来， $p$ 的影响就会减小。
对于加权的IC模型，则有：
在这里插入图片描述
WIC的证明方法和ULT类似。
对本章进行总结，也是对定理3.2的总结。这里便是文章观点的核心内容。

这个定理也是一个不可近似性，和前面不一样的情况是，YES instance对应了基本上所有点都会被传染。一般的不可近似性说的是yes和no之间有一个gap，但是并没有保证yes对应了多少，no对应了多少。这个定理说的是，即便是yes对应了几乎是N的值，这个不可近似性结论仍然成立。

3、upper bounds

这一章分别对LT、UIC、WIC进行上界分析。可以理解为从不同角度（节点的局部特征）对 $I n f M a x$ 进行了分析。首先引入"lift"这一概念。
在这里插入图片描述
如图所示，lift是原图 $G$ 的变种，用 $\widehat{G}$ 表示，存在两个性质： $\widehat{G}$ 中的节点数目 $\geq G$ 中节点数目，且种子节点与非种子节点的连边数目保持一致。

3.1 Uniform IC model

在这里插入图片描述

3.2 Linear threshold models

这里要证明的是在LT模型中，每一个种子节点传播个数的上限。可以理解为是从不同角度对我们称该过程为“缩水”。
在这里插入图片描述
证明如下：下图为一个非常简单的t树 $T$ 。对于parent节点 $u$ ，一旦 $u$ 被感染，其三个children也会被感染（ $p(u,v)=\frac{1}{deg(v)}$ =1），故左边的图和右边的图有着同样的效果。得证。
Lamma 4.3 的作用：一个节点在添加了dummy nodes之后，其感染节点的期望仍然不变。
在这里插入图片描述

这个推论表明，LT模型在无向图中，在树结构上能达到最大程度的传播力度，而往树结构中添加边往往会造成传播能力的下降。该结论与常识相悖，这是因为添加边这一操作，会对LT模型以及WIC（weighted IC）模型中的节点造成度的变化，进而影响了节点的信息传播能力。总而言之，在图中添加边这一操作，弊大于利。

3.3 Weighted IC model

在这里插入图片描述

3.4 Refined upper bounds

在这里插入图片描述
由于

故定理4.9和4.10进一步缩小了上界。

这里进一步对“lift”进行改造。Seed依然是root，这里与之前“lift”不同的是，与seed相邻的非种子节点作为中间商赚差价，连接了邻居中的seed nodes和非seed nodes。下图中的 $\widehat{G}_A^{b}$ 便是新的lift。
在这里插入图片描述
对定理4.9进行证明：在 $\widehat{G}_A^{b}$ 中去掉种子节点S，那么 $\widehat{G}_A^{b}$ 就成了以中间商为root的树了。对这棵树进行缩水（Lamma 4.3），便可得到中间商及其邻居，中间商以 $\frac{\delta_v}{deg(v)}$ 的概率，去感染其非种子邻居，个数为 $deg(v)-\delta_v$ 。故该次感染总期望为：
在这里插入图片描述
中间商进行缩水
得证。
接着是对Lamma 4.10的证明：和上述证明一致，在缩水之后，每个中间商感染其邻居的概率为 $(1-(1-\frac{1}{deg(v)}^ {\delta_v})) \leq \frac{\delta_v}{deg(v)}$ ，个数为 $deg(v)-\delta_v$ 。故该次感染总期望为：
在这里插入图片描述
最后，对于Uniform IC，根据假设 $\frac{1}{d}$ ，有：

由于实践中基本上不可能有 $\frac{1}{d}$ ，故不再展开UIC的讨论。