在线社交网络中信息扩散的一项调查
一、说明
信息传播研究的问题:
- 哪些信息或主题最受欢迎并且传播最多;
- 如何传播?为什么传播?信息传播的路径、信息在未来的传播。
- 网络的哪些成员在传播过程中扮演重要角色?
二、在线社交网络的基础和信息传播
1.OSN
在线社交网络(OSN)是由于使用特别的网络服务而产生的,通常用社交网站(SNS)代指它。它允许其用户
(i) 创建个人资料页面并发布消息
(ii)与其他用户建立联系,从而建立社交关系。
实际上,OSN可以描述为允许其用户交流和共享信息的用户生成的内容系统。
2.定义1(Topic)
一组表达单个参数的语义相关属性。在实践中,我们发现此定义的三种解释:(此处把term译为了属性)
- 属性集S的|S|=1,例如{“obama”}。
- 属性集S的|S|>1,例如{“ obama”,“ visit”,“ china”}。
- 属性集S的概率分布。
3.消息流
图2表示网络成员产生的流,该流可以看作是一系列决策(即是否采用某个主题),以后的人们会观察早期人们的行动。
4.定义2(社会影响力)
个人可以经历或施加的一种社会现象,也称为模仿,可以诱使与他有联系的用户以类似方式表现。例如,当某人“转发”其他人时,影响力会显式出现。
5.定义3(追随行为)
当一些独立的个体做出相同的动作,而并不一定忽略他们的私有信号时发生的社会行为。
6.定义4(信息级联)
在社交网络中,人们采用信息的行为,是由于忽略了自己的私有信号,并根据先前人们的行为做出的推论做出了决定。
三、信息扩散建模
1.信息扩散
扩散过程的特征在于两个方面:
- 结构(扩散图,记录着谁影响谁)。
- 时间动态(扩散速率的演变,其定义为随时间采用该信息的节点数量)。
描述扩展过程的最简单方法是考虑是否可以激活节点(即已接收到信息并尝试传播它)。因此,传播过程可以看作是整个网络中节点的连续激活,称为激活序列。
2.解释模型
解释模型的目的是在给定完整激活序列的情况下推断潜在的扩展级联。这些模型可以追溯一条信息所走的路径,并且对于了解信息的传播方式比较有用。
3.预测模型
这些模型旨在通过从过去的扩散轨迹中学习,从时间和/或空间的角度预测特定的扩散过程在给定网络中的发展方式。我们将现有模型分为两个开发轴,即基于图形和基于非图形的方法。
3.1基于图的方法
两个主要的模型:独立级联模型、线性阈值模型。(此处不做赘述)
3.2非基于图的方法
非基于图的方法不假定存在特定的图结构,并且已主要用于模拟流行病学过程。主要有模型:SIR、SIS。其中S代表“易感”,I代表“受感染”(即采用信息),R代表恢复。在这两种情况下,S类中的节点都以固定的概率β切换到I类。然后,在SIS的情况下,I类以固定的概率γ切换到S类,而在SIR的情况下,它们永久切换到R类。
四、识别有影响力的传播者
1.定义9(K-Core)
令G为图。H是G的子图, σ ( H ) \sigma(H) σ(H)表示H的最小度。故H的每个节点至少与 σ ( H ) \sigma(H) σ(H)个H的其他节点相邻,其中 σ ( H ) > = k \sigma(H)>= k σ(H)>=k,我们说H是G的k-core。
2.一些算法
- Kitsak等[25]证明最好的传播者不一定是网络中联系最紧密的人。他们发现,最有效的扩展器是定义为9的k-core分解分析[45]确定的位于网络核心内的扩展器。
- 布朗等[5]观察到Twitter网络上的k-shell分解结果高度偏斜。因此提出了一种使用对数映射的改进算法,以便产生更少和更有意义的k-shell值。
- Cataldi等[6]建议使用众所周知的PageRank算法来评估影响力在整个网络中的分布。给定节点的PageRank值与在社交网络的随机游走中访问该节点的概率成比例,其中随机游走的状态集就是节点集。
- Romero等[38]开发了一种基于图的方法IP(即Impact-Passivity),类似于众所周知的HITS算法,该方法根据每个用户转发信息的比率为每个用户分配相对影响力和被动性评分。但是,没有任何人可以成为普遍的影响者,并且网络中有影响力的成员往往只在一个或某些特定的知识领域中具有影响力。
- 鉴于Romero的不足,Pal等[36]开发一种基于非图的主题敏感方法。为此,他们定义了一组节点和主题功能以表征网络成员。通过在此特征空间上使用概率聚类,他们使用集群内排名程序对节点进行排名,以识别给定主题中最有影响力和权威的人员。
- Weng等[49]还开发了专门用于Twitter的Page Rank算法的主题敏感版本TwitterRank。
- 而Kempe等[24]采用了不同的方法,并建议使用IC和LT模型来解决影响最大化问题。
五、其它
1.识别有影响力的传播者
- 解决此问题的方法有很多种,从纯拓扑方法(如kshell分解或HITS)到基于文本聚类的方法,包括混合方法(如将HITS算法与节点功能结合在一起的IP)。如前所述,没有通用的影响者,因此也开发了主题敏感的方法。
- 意见检测。影响的概念与见解紧密相关。近年来,已经出现了许多有关此问题的研究,旨在自动检测来自数据语料库的观点或观点。我们认为将这种工作包含在信息传播的背景下可能会很有趣。处理意见本身传播的工作已经出现[29],似乎有兴趣将这些方法结合起来。
2.开源工具
SONDY[18]旨在促进在线社交网络数据挖掘技术的实现和分发。它是一个开源工具,提供数据预处理功能,并实现了本文中介绍的用于主题检测和有影响力的吊具识别的一些方法。它具有易于使用的界面,并提供主题趋势和网络结构的可视化。