摘要
影响力最大化问题以往的研究都是 网络结构,本文提出全新的方法,基于数据的,根据传播数据建模,并用此模型去预测影响力。并提出了一个影响力最大化算法。
INTRODUCTION
影响力最大化问题需要两个数据:图G、边的概率。一般情况下图G是知道的,但是边的概率不知道。以往的做法是将边的概率固定或者设为随机数或节点入度的倒数。
我们是否可以避免昂贵的学习和模拟方法,直接挖掘过去行动传播轨迹的可用日志来建立任意给定种子集的传播模型?
基于上述问题做出的研究。
1、我们对不同的边缘概率分配方法以及从真实传播轨迹中学习的概率进行了详细的经验评估,并表明不从真实数据中学习概率的方法最终选择的种子集与那些从真实数据中学习概率的方法非常不同。
并且设置边的概率相比于从数据中学到的概率,会有更大的误差,表明在选择种子的质量上也会更差一些。
2、提出了credit distribution,不需要进行概率的学习与MC,就能计算节点的影响力值。
为什么数据是重要的?
数据集太大,从中选出来一部分,具体的,利用社区检测算法选出一个社区。
数据集划分为训练集和测试集,为了保持两个集的分布相同,将所有数据按照长度进行排序,然后每隔五个选出来一个作为测试集。
将边的设置:
设为统一值、随机值、入度的倒数、EM嵌入的方法(还是基于IC模型)、加入扰动的EM,等用贪婪的方法选出来种子节点,然后比较种子节点的质量。
结论:
1、使用数据学习概率的方法与设置边的概率的方法得到的种子集很不同。
2、使用数据学习的方法更