一文读懂社交网络分析(附应用、前沿、学习资源)学习笔记
- 一、社交网络的结构特性与演化机理
- 二、社交网络群体行为形成与互动规律
- 三、社交网络信息传播与演化机理
- 四、社交网络分析的应用
- 五、社交网络前沿研究
-
- 1. Negative Link Prediction in Social Media
- 2. Twitter Sentiment Analysis with Deep Convolutional Neural Networks
- 3. Social Recommendation with Strong and Weak Ties
- 4. Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior
- Intertwined Viral Marketing in Social Networks
- Who to Invite Next? Predicting Invitees ofSocial Groups
- 7. The Co-Evolution Model for Social NetworkEvolving and Opinion Migration
原文链接:http://mt.sohu.com/20171010/n516921964.shtml
一、社交网络的结构特性与演化机理
1、社交网络结构分析与建模
1.1 统计特性
社交网络模型许多概念来自于图论,因为社交网络模型本质上是一个由节点(人)和边(社交关系)组成的图。
-
度(Degree):节点的度定义为与该节点相连的边的数目。在有向图中,所有指向某节点的边的数量叫作该节点的入度,所有从该节点出发指向别的节点的边的数量叫作该节点的出度。网络平均度反应了网络的疏密程度,而通过度分布则可以刻画不同节点的重要性。
-
网络密度(Density):网络密度可以用于刻画节点间相互连边的密集程度,定义为网络中实际存在边数与可容纳边数上限的比值,常用来测量社交网络中社交关系的密集程度及演化趋势。
-
聚类系数(Clustering Coefficient):用于描述网络中与同一节点相连的节点间也互为相邻节点的程度。其用于刻画社交网络中一个人朋友们之间也互相是朋友的概率,反应了社交网络中的聚集性。
-
介数(Betweeness):为图中某节点承载整个图所有最短路径的数量,通常用来评价节点的重要程度,比如在连接不同社群之间的中介节点的介数相对于其他节点来说会非常大,也体现了其在社交网络信息传递中的重要程度。
1.2 网络特性
- 小世界现象:小世界现象是指地理位置相距遥远的人可能具有较短的社会关系间隔。早在1967年,哈佛大学心理学教授 Stanley Milgram 通过一个信件投递实验,归纳并提出了“六度分割理论(Six Degrees of Separation)”, 即任意两个都可通过平均五个人熟人相关联起来。1998年,Duncan Watts 和 Steven Strogatz 在《自然》杂志上发表了里程碑式的文章《Collective Dynamics of “Small-World” Networks》,该文章正式提出了小世界网络的概念并建立了小世界模型。
小世界现象在在线社交网络中得到了很好地验证,根据2011年 Facebook 数据分析小组的报告, Facebook 约7.2亿用户中任意两个用户间的平均路径长度仅为4.74,而这一指标在推特中为4.67。可以说,在五步之内,任何两个网络上的个体都可以互相连接。 - 无标度特性:大多数真实的大规模社交网络都存在着大多数节点有少量边,少数节点有大量边的特点,其网络缺乏一个统一的衡量尺度而呈现出异质性,我们将这种节点度分布不存在有限衡量分布范围的性质称为无标度。无标度网络表现出来的度分布特征为幂律分布,这就是此类网络的无标度特性。
1.3 网络模型
- WS 模型:WS 模型即小世界模型,通过小世界模型生成的小世界网络是从规则网络向随机网络过渡的中间形态。
- BA 模型:BA模型考虑到现实网络中节点的幂律分布特性,生成无标度网络。
- 其他模型:森林火灾模型,Kronecker 模型,生产模型。
2、虚拟社区以及发现技术
2.1 定义
虚拟社区基于子图局部性的定义:社区结构是复杂网络节点集合的若干子集,每个子集内部的节点之间的连接相对非常紧密,而不同子集节点之间的连边相对稀疏。
在社交网络中发现虚拟社区有助于理解网络拓扑结构特点,揭示复杂系统内在功能特性,理解社区内个体关系。为信息检索、信息推荐、信息传播控制和公共事件管控提供有力支撑。虚拟社区发现存在着许多经典的算法,这些算法用于挖掘不同规模的虚拟社区,算法在追求高精度的同时力求提高效率(降低时间复杂度)。
2.2 社区发现算法评估指标
- 模块度(Modularity):通过比较现有网络与基准网络在相同社区划分下的连接密度差来衡量网络社区的优劣。
- NMI (Normalized Mutual
Information):利用信息熵来衡量预测社区结构一直社区结构的差异,该值越大,则说明社区结构划分越好,最大值为1时,说明算法划分出的社区结构和一直社区结构一致,算法效果最好。 - Rand Index:表示在两个划分中都属于同一社区或者都属于不同社区的节点对的数量的比值。
- Jaccard Index:Jaccard 系数用来衡量样本之间的差异性,是经典的衡量指标。
2.3社区静态发现算法
-
模块度最优算法
Mark Newman 提出了针对模块度的最大化的贪心算法FN。可参考文献:Newman,Mark EJ. “Fast algorithm for detecting community structure innetworks.” Physical review E 69.6 (2004): 066133. -
多目标优化算法
Zhao, Yuxin, et al. “Acellular learning automata based algorithm for detecting community structure incomplex networks.” Neurocomputing 151 (2015): 1216-1226.
Du, Jingfei, Jianyang Lai,and Chuan Shi. “Multi-Objective Optimization for Overlapping CommunityDetection.” International Conference on Advanced Data Mining andApplications. Springer, Berlin, Heidelberg, 2013. -
基于概率模型的算法
Newman, Mark EJ, andElizabeth A. Leicht. “Mixture models and exploratory analysis innetworks.” Proceedings of the National Academy of Sciences104.23(2007): 9564-9569.
Ren,Wei, et al. “Simple probabilistic algorithm for detecting communitystructure.” Physical Review E 79.3 (2009): 036111. -
信息编码算法
Rosvall, Martin, and Carl T.Bergstrom. “Maps of random walks on complex networks reveal communitystructure.” Proceedings of the National Academy of Sciences 105.4(2008): 1118-1123.
Kim, Youngdo, and HawoongJeong. “Map equation for link communities.” Physical Review E 84.2(2011): 026110.
2.4 社区动态发现算法
- 派系过滤算法
Palla, Gergely, et al.“Uncovering the overlapping community structure of complex networks innature and society.” arXiv preprint physics/0506133(2005).
Kumpula,Jussi M., et al. “Sequential algorithm for fast cliquepercolation.” Physical Review E 78.2 (2008): 026109. - 基于相似度的聚合算法
Shen, Huawei, et al.“Detect overlapping and hierarchical community structure innetworks.” Physica A: Statistical Mechanics and its Applications388.8(2009): 1706-1712.
Huang,Jianbin, et al. “Density-based shrinkage for revealing hierarchical andoverlapping community structure in networks.” Physica A:Statistical Mechanics and its Applications 390.11 (2011): 2160-2171. - 标签传播算法
Raghavan, Usha Nandini, RékaAlbert, and Soundar Kumara. “Near linear time algorithm to detectcommunity structures in large-scale networks.” Physical review E 76.3(2007): 036106.
Gregory, Steve. “Finding overlapping communitiesin networks by label propagation.” New Journal of Physics 12.10(2010): 103018. - 局部扩展优化算法
Lancichinetti, Andrea, andSanto Fortunato. “Benchmarks for testing community detection algorithms ondirected and weighted graphs with overlapping communities.” PhysicalReview E 80.1 (2009): 016118.
Lee,Conrad, et al. “Detecting highly overlapping community structure by greedyclique expansion.” arXiv preprint arXiv:1002.1827 (2010).
3、虚拟社区演化分析
在线社交网络中存在着大量显性或者隐性的虚拟社区结构,这些虚拟社区结构并不是永恒不变的,随着事件变化,社区结构也在不断演变。分析动态的虚拟社区结构演化有助于理解整个社交网络的演化过程,所以有着重要的研究价值。
3.1 虚拟社区的涌现
虚拟社区涌现即在社交网络中虚拟社区从无到有的过程,其最重要的特征是网络聚集现象。
- 周期闭包:所谓周期闭包,是指网络节点倾向于和自己在网络中邻居的邻居建立连接关系而形成的结构,该机制是导致虚拟社区形成的主要因素。实验表明三元闭包的出现概率随着两个节点之间测地距离的增减呈指数递减。相反地,焦点闭包和测地距离无关,其生成原因是两个节点之间有共同的兴趣或参与共同的活动。
- 偏好连接:在很多真实网络中,新增加的边并不是随机连接的,而是倾向于和具有较大度数的连接。
3.2 虚拟社区的演化
在线社交网络虚拟社区演化过程非常复杂,影响因素很多。如何挖掘虚拟社区演化中的关键性因素成为社交网络研究中一个重要而有挑战性的课题, 用户个体的累积效应、结构多样性和结构平衡性三个基本因素对虚拟社区演化都存在影响。
3.3 演化虚拟社区的发现
- 基于相邻时刻相似度直接比较的演化虚拟社区发现
Hopcroft, John, et al.“Tracking evolving communities in large linked networks.” Proceedingsof the National Academy of Sciences 101.suppl 1 (2004): 5249-5253.
Greene, Derek, Donal Doyle, and PadraigCunningham. “Tracking the evolution of communities in dynamic socialnetworks.” Advances in social networks analysis and mining (ASONAM), 2010international conference on. IEEE, 2010.
- 基于演化聚类分析的演化虚拟社区发现
Chakrabarti, Deepayan, Ravi Kumar,and Andrew Tomkins. “Evolutionary clustering.” Proceedings ofthe 12th ACM SIGKD