符号社交网络中净积极影响力最大化问题研究

摘要

  近年来,以Twitter、微博、Facebook为代表的在线社交网络发展迅速,在线数据可用性的增加促进了对社交网络分析和挖掘的研究,在线社交网络为产品推广和广告提供了新的平台。目前,病毒式营销中出现的影响力最大化问题受到了广泛关注。符号网络是可以反映用户之间的积极关系和消极关系的社交网络,然而之前的研宄较少考用户之间的友好或敌对关系,即忽略了用户之间的极性关系,这在实际场景中是不准确的,另外在符号网络中选择种子用户时,除了要考虑他们带来的积极影响,他们产生的消极影响也发挥了不容忽视的作用。鉴于此,在符号网络中,对用户的净积极影响力最大化问题进行了研究,涉及的具体内容如下:
提出了符号网络中考虑用户意愿的净积极影响力最大化问题,即:利用符号网络来刻画用户具有友好(积极)和敌对(消极)关系的社交网络,每个用户对传播的信息有自己的意愿,目标是从网络中选择k个用户,使得最终净积极影响的用户数量最多。通过对问题的细致分析,首先建立了考虑用户意愿的传播模型,证明了该模型下净积极影响力最大化问题是非次模和非单调的,随后给出了基于概率驱动的结构感知的求解算法,并且在三个数据集上进行了仿真模拟,仿真结果表示应用所提出的算法找到的种子集有更好的净积极影响力。
由于时间在信息传播过程中也是一个重要因素,因此提出了符号网络中考虑时间限制的净积极影响力最大化问题,即在固定时间内,从网络中选择k个用户,使得最终净积极影响的用户数量最多。通过对问题的细致分析,首先建立了考虑时间限制的传播模型,证明了该模型下净积极影响力最大化问题是非次模和非单调的,随后给出了基于模拟退火思想的求解算法,并且在三个数据集上进行了仿真模拟,仿真结果表示应用所提出的算法找到的种子集在影响范围和效率上有较好的表现。 

关键词:符号网络 净积极影响力 用户意愿 时间限制 概率驱动结构 感知算法 模拟退火算法

 

本文从两个不同方面提出了解决方案:

1.本文研究了考虑种子节点意愿的净积极影响力最大化问题,节点的净积
极影响即节点的积极影响减去节点的消极影响。由于用户在传播信息时,会考虑到自身的某些原因比如性格等,导致他们并不愿意去影响自己的邻居,因此本文先模拟生成节点的传播意愿,证明了影响函数既不是单调的也不是次模的,从而利用概率驱动的结构感知算法找到种子节点。该算法的主要思想是先模拟生成每个节点的传播意愿,从而重新生成节点间的影响概率,再将每个节点的净积极影响计算出来,然后进行降序排列,取前个节点作为种子节点。并且实验证明,该算法有较好的效果。
2.由于影响力的传播在实际场景中可能是有时间限制的,例如在某个病毒
式营销活动中,公司希望在一个固定的时间内引发大量的产品购买,例如三天的促销活动。对于这种情况,我们需要考虑的是在截止日期限制内的影响;另外,在实际情境中,要想让一个用户去影响另一个用户,前提是他们两个需要先取得联系或者先见面,那么相遇概率是确定最优种子集的重要因素。我们这篇文章考虑了有时间限制的净积极影响力最大化问题,并在此基础上提出了考虑用户相遇因素的极性相关的独立级联模型,并证明了影响函数既不是单调的也不是次模的,从而采用了模拟退火的思想来解决这个问题,并且采用了能加速模拟退火算法收敛的方法。

本文组织结构
  

1.第一章:绪论。本章主要介绍了无符号网络和符号网络中影响力最大化问题的研究背景和目的,同时介绍了国内外对于这两种社交网络的研究现状以及相关的研宄工作,然后介绍了本文的研宄内容和组织结构。

2.第二章:相关知识。本章主要介绍了常见的影响传播模型和影响力最大化问题,以及符号网络中对影响力最大化问题的研宄的相关知识,包括影响力传播模型,影响力最大化问题的问题定义和相关性质,影响力扩展度的计算,相关求解算法以及积极影响力最大化问题,消极影响力最大化问题和净积极影响力最大化问题的相关定义等.

3.第三章:本章在符号网络中净积极影响力最大化问题的已有研宄成果的
基础上,添加了用户的传播意愿,提出了考虑用户意愿的净积极影响力最大问题,分析了目标函数在单调性和次模性方面上的性质,并给出了与所提问题对应的求解算法,最后通过做模拟实验对算法的表现和时间上进行了验证。

4.第四章:本章考虑了时间对信息扩散的影响,并且将用户之间的相遇概率考虑在内,提出了具有时间限制的净积极影响力最大化问题,分析了目标函数在单调性和次模性方面上的性质,并给出了与所提问题对应的求解算法,最后通过做模拟实验对算法的有效性进行了验证。

5.第五章:总结与展望。对已经完成的工作进行了反思与总结,对未来可以做的方向进行了相应的展望。

净积极影响力最大化问題

   在符号网络中,已经有一些研究提出了积极影响力最大化(PIM)的问题,并提出了几种解决方案。PIM问题的目标是在符号网络中选择具有最大积极影响的种子节点集。

定义5(积极影响力最大化问题):给定一个符号的网络G=(F,五,P^),一个影响力扩散模型以及一个非负整数&,该问题的目标是在G中寻找一个包含it个种子节点的集合使得积极影响函数/+(幻最大化。这个问题可以形式化为:

中,s表示节点之间的极性关系,集合S包含的种子节点都设置为活跃状态,可以表现为积极状态,也可以表现为消极状态。/+(S)表示的是在IC-P模型下,由种子节点集S激活并处于活跃状态的积极节点数量的期望值。

定义6(消极影响力最大化问题):给定一个符号的网络G=(F,五,P,s),一个影响力扩散模型以及一个非负整数t,该问题的目标是在G中寻找一个包含个种子节点的集合*S,使得积极影响函数最大化。这个问题可以形式化为:

 其中,s表示节点之间的极性关系,集合S包含的种子节点都设置为活跃状态,可以表现为积极状态,也可以表现为消极状态。/1幻表示的是在IC-P模型下,由种子节点集S1激活并处于活跃状态的消极节点数量的期望值。

积极影响力最大化问题(PIM)和消极影响力最大化(NIM)问题的研宄具有广泛的应用场景。PIM可以应用于病毒式营销的场景,公司或个人可以使用它来推广他们的产品、服务和创新想法。对于多个竞争信息同时在社会网络中传播的情况,NIM可以与PIM的研宄相结合。对于两个具有竞争关系的两个信息A和B,如果我们想支持A而反对B,我们可以选择PIM选择的节点集来提升A,选择NIM选择的节点集来提升B。

  但有的场景只关注积极影响力是远远不够的,因为出现选中的用户积极影响力很大但同时消极影响力也很大,这将对商家的宣传不利。基于此场景,Li等人[28]针对符号网络首次提出了净积极影响的概念,并提出了净积极影响力最大化问题。净积极影响既考虑了积极影响,也考虑了消极影响,净积极影响最大化是指在最小化消极影响的同时最大化积极影响

定义7(净积极影响力最大化问题):给定一个符号的网络G=(F,£,P,d,一个影响力扩散模型以及一个非负整数t,该问题的目标是在G中寻找一个包含A:个种子节点的集合X,使得净积极影响函数(幻最大化。这个问题可以形式化为:

其中,s表示节点之间的极性关系,集合S包含的种子节点都设置为活跃状态并表现为积极状态,有些节点虽然被激活,但未处于活跃状态,我们视为影响力不会继续传播下去。/^幻表示的是在IC-P模型下,由种子节点集S激活并处于活跃状态的净积极节点数量的期望值。

第三章 考虑用户意愿的符号网络净积极影响力最大化问题

符号网络的形式化定义

  符号社交网络指的是边带有正负的社交网络。其中“+”表示用户之间是积极信任的关系,表示用户之间是消极敌对的关系。符号社交网络可以分为两类:显性网络和隐性网络。在显式网络中,用户可以直接标记两个用户之间的关系的极性(积极(正)或消极(负))。例如,Epinions上的参与者可以明确表达对他人的信任或不信任;Slashot上的用户也可以宣称他人是朋友或敌人。

  隐式网络中,用户不直接标记用户之间关系的极性。然而,关系的极性可以从用户之间的交互数据中挖掘出来。例如,在Twitter中,用户w可能支持他关注的一些用户(积极的),而反对其他用户(消极的)。因此,推特用户之间的“关注”关系可能是有极性的.

   给定一个符号网络其中7代表用户的节点集,£:代表用户之间关系的有向边的集合,每条边有一个对应的激活概率,表示节点w成功激活节点v的概率。表示节点II和节点v之间关系的极性,即指的是节点w与节点v之间是积极友好的关系,\v=-l指的是节点W与节点v之间是消极敌对的关系。如图1是一个代表符号网络的有向图,每条边上的权重即为
的结果。例如节点1和节点2,由于他们之间的边的符号为“+”,说明用户1和2是信任的关系,关系的极性为正的;再看节点1和节点3,它们之间的边的符号为说明用户1和3是敌对关系,关系的极性为负的。

与极性相关的独立级联模型
  

  Li等人[20]针对符号网络提出了极性相关的独立级联(IC-P)模型,在IC-P模型中,节点的活跃状态有两种:积极(正)状态和消极(负)状态。因此,IC-P模型中每个节点的状态分为三种:积极(正)状态、消极(负)状态或不活跃状态。对于节点《来说,积极状态意味着在社交网络中,相应的用户采用并进而支持或信任传播信息。w的消极状态意味着相应的用户采纳了信息,但随后又反对或不信任该信息。u的不活跃状态意味着相应的用户不采用该信息 

   在符号网络中,节点状态的确定方式如下:例如节点v的状态是由他的入邻居W的状态和这两个节点之间的边(《,V)的极性相关,即若节点w处于积极状态,边(W,V)的极性为+1,即suv=+1,则节点V的状态即为积极(正)的,若边(w,v)的极性为-1,即则节点V的状态即为消极(负)的;即若节点W处于消极状态,边(KV)的极性为+1,即\?=+1,则节点V的状态即为消极(负)的,若边的极性为-1,即、则节点V的状态即为积极(正)的。

     模型的传播过程如下:在IC-P模型中,扩散过程从初始的一组活跃节点S开始,S中节点的状态有积极状态和消极状态,不在S中的节点都是不活跃的。该过程根据以下随机规则以离散的步骤展开:对于在卜1时刻被激活的节点《,它将在f时刻变成积极或消极状态。然后这个节点《在^时刻去尝试激活每个当前不活跃的邻居节点,并且这种尝试机会有且只有一次。一旦其邻居节点v被节点〃成功激活,节点v的其他活跃的邻居将不能再去激活它。对于新激活的节点V,它的状态与节点M的状态以及有关,即。一旦节点变为积极(正)或消极(负)状态,它的状态将不再发生改变。该过程一直持续下去,当不再有新的节点被激活时,传播过程结束

     在实际情境中,用户自身是否愿意去传播信息也是需要考虑的因素,而IC-P模型并没有考虑用户在影响传播过程中的个人意愿,对此谢等人[29]提出了考虑用户传播意愿的AIC-P模型,将用户的传播意愿用w表示,且此模型中节点状态的确定与IC-P模型相同,两个模型的差异如下:AIC-P模型中每个节点的状态分为:活跃并表现为积极(正)状态,活跃并表现为消极(负)状态,激活但不活跃状态或未被激活状态。信息的传播过程从最先给定的活跃节点集开始,包含的是活跃并表现为积极状态的节点,不在S中的节点表示未被激活。其次,在激活过程中,如果节点M在/-I时刻被激活,它将在f时刻检查它是否有意愿去传播影响,即本身的传播意愿值+),再判断自身是否会处于活跃状态,如果激活的节点《是处于活跃状态,那么节点《才会在?+1时刻变为积极或消极状态。然后M在f+1时刻才有一次机会去激活当前未被激活的邻居V。其中激活且处于活跃状态的节点《改变其对应状态的过程与IC-P模型一样。

符号网络中考虑用户传播意愿的净积极影晌力最大化
  

  令尸(_)表示积极影响函数,给定一个节点集*S,/+0)即为在AIC-P模型下,被^激活为积极状态的期望节点数,被认为是51的积极影响。同样,/_(?)表示消极影响函数,给定一个节点集r(s)即为被s激活为消极状态的期望节点数,被认为是S的消极影响。我们定义/%;)为净积极影响函数,对于节点集净积极影响函数的计算方法如下:

 

  符号网络中考虑用户意愿的净积极影响力最大化问题的定义如下:给定一个符号的网络G=(F,五,一个信息扩散模型(AIC-P)以及一个非负整数I目标是寻找一个包含A个种子节点的集合51,使得净积极影响函数尸仏)最大化。这个问题可以形式化为

 

  其中,集合S包含的种子节点都设置为活跃状态并表现为积极状态,有些节点虽然被激活,但它们未处于活跃状态,我们视为影响力不会继续传播下去。/^幻表示的是在AIC-P模型下,由种子节点集S激活并处于活跃状态的净积极节点数量的期望值。

影响函数的计算

 

 求解算法

 Gong等人[35]针对无符号网络中的影响力最大化问题,提出了概率驱动结构感知(PDSA)算法。该算法的主要思想是,生成一定数量的活跃边图,找出每个节点在这些活跃边图中可以激活的节点数量的总和,再求出平均值即作为每个节点的扩散得分,最后根据每个结点的扩散得分来对节点进行排序。由于该算法可以基于网络结构的变化自适应地寻找有影响力的节点,在效率和准确性方面取得了良好的性能,因此,本文将该算法的思想推广到符号网络中,用来求解符号网络中考虑用户传播意愿的净积极影响力最大化问题。

  定义2(可达集):设g为图G的一个活跃边图,图g中的节点v沿着图中的路径可以到达的所有节点的集合称为v的可达集。在v的可达集中表现为积极状态的节点的集合称为v的积极可达集,表现为消极状态的节点的集合称为v的消极可达集。

  定义3(净扩散得分):给定一个图G=少,旬,则节点v#的净扩散得分定义为:其中广卜)表示在图G中被节点v激活且处于活跃状态的净积极节点的预期数量。
对节点V,它的净扩散得分的精确计算方法如下:

本章所研究的针对符号网络中的净积极影响力最大化问题是一个具有实际意义的问题,但由于用户在传播信息时会考虑自身的原因,因此在本文中,我们引入了用户的传播意愿来使得这个问题更符合实际场景。其次,我们证明了在AIC-P模型中,目标函数既不是单调的也不是次模的,另外我们提出了改进的PDSA算法,即A-PDSA算法来解决考虑用户意愿的净积极影响力最大化问题。并且通过对三个真实数据集的大量实验表明,使用了我们的算法获得的种子集,具有更大的净积极影响力。对于本文提出的算法,在寻找种子节点时仍会花费大量时间,因此未来应该考虑其他更优的算法;在模拟生成节点的传播意愿值时,是通过微博数据集进行分析的,这有一定的缺陷,因此未来的工作还要研宄更合适的方法来生成用户的传播意愿值。

具有时间限制的符号网络净积极影响力最大化问題

 给定一个符号网络G=,五,P,s),其中F代表用户的节点集,五代表用户之间关系的有向边的集合,每条边e=有一个对应的激活概率,表示节点M成功激活节点v的概率。&,,表示节点m和节点v之间的极性关系,即&v=+l表示节点M与节点V之间是积极的关系,表示节点《与节点V之间是消极 

  由于在实际情境中,用户之间的极性关系在信息传播时也起了很重要的作用,而IC-M模型并没有考虑用户之间的极性关系,因此本章把IC-M模型推广到了符号网络,并且在这个网络中针对我们要研宄的问题,提出了考虑相遇事件的极性相关的独立级联(IC-P-M)模型。该模型按照以下步骤离散展开:f=〇时,种子集S中的节点是活跃的。对于节点《,如果它在时刻?-1被激活,则该节点将在f时刻变为积极状态或消极状态,节点《以概率独立的和当前不活跃的邻居节点v相遇。如果这是节点w和节点v第一次相遇,则节点《将有一次机会去尝试激活节点V,激活成功的概率为/如果激活成功,节点v在(时刻被激活,并且在f+1时刻相应改变自己的状态。一旦v被其中一个邻居激活,其他的邻居将不会再去激活节点v.当所有活跃节点与他们的邻居相遇并且无新的节点被激活,扩散过程停止

  于我们可以用模拟退火算法来解决离散的优化问题,而考虑时间限制的净积极影响力最大化正是模拟退火所能解决的问题。接下来,我们提出了基于模拟退火的算法(M-SA算法),该算法包含两个部分。算法1详细阐述了该问题的基于模拟退火的种子节点集查找策略,算法2即为生成邻居解的方法。算法1的伪代码如下:

  于在模拟退火算法中需要在集合中随机选取一个未选中的节点替换当前解集J中的节点以生成新的解集。事实上,随机选择过程对模拟退火算法的收敛并不是有利的,这促使我们探索有效的启发式方法来加速收敛。我们采用了Li等人[42]提出的方法来生成邻居解义。令M{A,d)={u\ue:V-Ayve.A,len{u,v)<d\,其中/en(w,v)表示在社交网络中,从节点《到节点v的最短路的长度。根据他们的实验结果,在选择新节点来生成新解集分的过程中,我们不考虑到当前解集J中节点的最短路径大于阈值的节点(在我们的实验中,的值被设置为2)。该算法的伪代码如

研究影响力最大化问题时,有时时间因素是我们必须要考虑进来的,鉴于此,我们研宄了符号网络中具有时间限制的净积极影响力最大化问题,其次,我们IC-P模型基础上添加了用户相遇问题,提出了IC-P-M模型,并证明了在IC-P-M模型中,目标函数既不是单调的也不是次模的,另外我们基于模拟退火算法提出了M-SA算法。并且通过借助三个真实数据集进行大量的仿真,结果表明利用我们的算法得到的种子集,在净积极影响力的表现方面与IC-PGreedy算法相当,并且时间要远远低于IC-P-Greedy算法,比原始模拟退火算法在效率上也有了提尚

总结与展望

总结

  近年来,在线社交网络发展迅速,它们支持世界各地用户之间的社交和信息传播。这些在线网站为大规模病毒式营销提供了巨大的机会。在病毒式营销的推动下,最大化影响力正在成为社交媒体上传播的产品、观点和创新的基本关注点。现有的对影响力最大化问题的研宄主要集中在无符号社交网络,而实际上,对于我们真实的生活场景符号社交网络更符合。因此本文研宄了针对符号网络中的影响力最大化问题。我们考虑的是符号网络中的净积极影响力最大化问题,在该问题中详细探讨了用户本身可以带来的积极影响和消极影响,这在一定程度上来说是比较符合一些生活情景的。我们考虑这样一个比较典型的例子,如果一个商家想要通过宣传来推广自己的新产品,使得该产品能够得到人们的喜欢,以引起大范围的购买。而商家在选择一些用户去做推销时,他们应选择能够产生最大积极影响和最小消极影响的用户来作为初始体验用户。因此,针对这个问题,本文提供了两个思路,主要研究工作如下:
(1)在影响力传播过程中,由于每个用户的自身情况不同,导致并非每个用户接受了某个产品后都愿意去向自己的朋友做推荐。因此在考虑净积极影响时,本文将用户的传播意愿添加进来,提出了考虑用户意愿的净积极影响力最大化问题。对于该问题,本文将基于概率驱动的结构感知算法的思想应用到该问题中,提出了A-PDSA算法。首先根据微博数据集模拟生成每个用户的传播意愿值,这将影响用户之间的激活概率,之后对于每个用户节点,利用活跃边图来对影响的传播过程进行多次模拟,以生成每个节点的净积极影响力,再进行排序取出相应的种子节点。试验结果表明,该算法能够达到很好的结果。
由于在病毒式营销场景中,时间因素也是非常具有实际意义的。例如一个商场在搞一个促销活动,活动的持续时间为3天。由于此时商家关注的只是促销期间用户的购买情况,因此3天以后产生购买已经不在考虑范围内了。另外,由于用户之间要想互相影响,那必须要他们取得联系或者能够见面,因此,相遇概率也有着一定的实际意义。鉴于此,本文提出了考虑时间限制的净积极影响力最大化问题,并且规定在一个单位时间内,活跃用户只有两次机会去尝试和自己的邻居去相遇,如果没有相遇成功,则该用户将没有机会去影响自己的邻居。对于本文提出的问题,应用模拟退火的思想来解决该问题。在生成邻居解的过程中,需要对之前选出的种子集中的节点进行替换。为了加快模拟退火算法的收敛速度,在选择用来替换之前种子集中的节点时,采用了轮盘赌的方式进行挑选,并用该节点进行替换,并且根据己有研宄,在选择用来替换的节点时,只在种子集两条内的邻居集合中进行挑选,有了这两个限制,大大减少了模拟退火算法的运行时间。数值实验表明,该算法比三个对比算法的效果更好。

 展望
 

虽然本文针对符号网络提出了两个新的问题,但是在用相应算法进行求解时,仍然有一些欠缺,现总结如下:
(1)本文针对符号网络中考虑用户意愿的净积极影响力最大化问题,提出的A-PDSA算法找到的种子集有更好的净积极影响力,但是应用我们提出的算法,在三个数据集上仍然需要较长的时间,所以如何更加快速且有效的找到种子集仍需要进一步的研究;另外,在该算法实施过程中,本文采用的是微博数据集来模拟生成用户的传播意愿,这显然在准确性上还有待提高。
(2)在考虑有时间限制的净积极影响力最大化问题中,本文是假设单位时间内用户之间有相遇次数的限制,只考虑了时间在影响传播过程中带来的影响,但是用户之间相遇所耗费的时间没有考虑在内。而实际上用户之间要想取得联系或者要想相遇,都是需要时间的。因此时间因素对影响力的传播有待进一步研宄。

  • 7
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值