文/吴斌
随着移动互联网时代的到来,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据。面对大数据时代的来临,复杂多变的社交网络其实有很多实用价值有待挖掘。
随着Facebook、Twitter、新浪微博、LinkedIn等社交媒体的流行,对社交网络的数据挖掘成为近几年的一个技术热点。而在社交网络中,用户与用户、用户与主题、用户与活动的关系网,就是一种图结构的海量数据,所以对社交网络分析的一个主要方向就是针对关系图的图数据挖掘。
社交网络大数据挖掘的应用场景
意见传播、动态网络影响力传播模型分析。这是社交网络分析的典型应用之一,主要分析相关主题图结构数据中的“意见领袖”、“结构洞”(即跨越不同社群子网络的桥接节点)、“动态网络影响力传播模型”等问题。
例如,一款新手机发布后,其在新浪微博做媒体宣传推广的预算是100万元,预计每个新浪博主的宣传费是1万元,如何利用这100万元预算,使这款手机在新浪微博上的推广效果最好? 用图数据挖掘的语言描述就是:在基于新浪微博的社交网络中,需要找到讨论主题是“手机”的相关100个节点(人),且使得这100个节点的影响力传播范围最大。
某领域专家发现和排名。基于某个学术主题或学术会议,在相关论文的合作者构成的图数据中,找到最有影响力的专家、分析专家影响力的排名,并图形化呈现专家与专家之间、专家与研究课题之间,以及研究课题与相关学术会议之间的关系,便于人们直观地发现某领域内专家的排名顺序和相互之间的关系。
社交关系分析。按照社交网络的六度空间理论,每两个人的关系一般只需要通过6个中间人就可以建立。所以在社交媒体中,人们之间的关系基本都可以组成网络结构。社交关系分析,最典型的应用案例就是通过用户的电话记录,或者邮件记录,分析其中哪些人是家人,哪些人是同事,谁是谁的领导等关系。
相关主题的历史和趋势分析。针对某个主题,其描述方式在不同的时间会有很多表达方式,还会有一些相关的子主题。这些不同的表达方式或子主题就是针对某个主题的一个相关主题演进关系图。
比如,与Deep Learning相关的主题有Deep architecture、Deep belief network、Neural network、Feature selection、Re