文章来自社会网络分析的三大流派,科学的第四范式
社会网络分析研究有三大流派,分别是社会学、复杂网络、计算机。这些流派的研究范式各不相同,似乎有些各说各话,容易引起困惑。我刚接触这个领域研究时,也困惑了好一阵。现在有了一点?理,和大家探讨一下。
社会学这一派的研究起步最早,大约从20世纪70年代就开始了。这一派的研究是通过数学方法﹑图论等定量分析方法,在社会学、心理学、人类学这些社会科学 领域逐步发展起来。这一派最出名的研究是1967年哈佛大学心理学教授Milgram通过连锁信实验得出的“六度空间理论”,以及1973年斯坦福大学社会系的Mark Granovetter教授在的“弱连接理论”。 这一派的方法最为成熟,如中心性分析、凝聚子群分析、核心一边缘结构分析等,比较简单粗糙。尤其其工具都是针对当年少量的社会调研数据的分析,基本上无 法适应今天大规模社交网络数据的分析。 但这一派是社会学,经济学,心理学与数学的桥梁,其理论对大数据条件下的研究非常有启发意义。有一些研究就是用大规模真实数据验证这些社会学理论,如用微软MSN和Facebook数据验 证六度空间理论。复杂网络这一派原来是搞物理的。这一派兴起的源头是1998年Watts和Strogatz在Nature杂志上发表的小世界模型,以及1999年Barabási和Albert在Science上发表的无标度网络的 文章。这篇文章发现复杂网络的连接度普遍符合幂律分布(在双对数坐标上是一条直线),随后,很多物理学研究者开始研究各种复杂网络,大量发表这些网络连接 度符合幂律分布的文章。这一派的理论功底很深,掌握热力学、非线性动力学和仿真等手段,也提出了很多理论模型,包括结构模型、传播模型(如 SI,SIR,SIS),相继故障模型(如沙堆模型)等。但这一派的研究鲜有实际应用。我觉得一个原因是人类确实还没有完全驾驭复杂系统,只能发现一些规 律,还没有很好用手段;另一个可能的原因是搞物理学的更关心发现客观规律——复杂网络的文章多发表在PLoS ONE、PRE、EPL、NJP这些物理学杂志上,而不太重视工程应用需求。
最后一派是计算机,这一派出现的比较晚(如果按其代表人物康奈尔大学的Jon M. Kleinberg教授在1998年提出HITS算法开始),但发展很快,成果应用也最广。这一派的基本方法是数据挖掘/机器学习,文章发表在 KDD,SocialCom,WWW等;基本套路是针对社交网络数据的特点,运用与修改各种数据挖掘算法。也有针对社交网络数据发展出的基本算法,如著名 的HITS和PAGE RANK算法。这一派与工业界结合最紧密。
另外,前一段阅读Gray的《第四范式》,发现这三派的研究非常吻合四种范式的划分。社会学派的研究属于经验范式(虽然也用了一些数学方法,但这些方 法是为经验模型提供定量的解释用的,并没有提出定量的理论模型)。复杂网络这一派是典型的理论范式和计算范式(理论模型 仿真)。计算机派则是被称为数据 科学的第四范式。
所谓科学发现的前三个范式,是第一,实验;第二,理论;第三,模拟;第四,数据挖掘。科学家一直都在从以往数据中寻找规律,提出猜想,再做验证。这就是所谓 “Empirical Study”,或者说“经验公式”。
有人从“硬度”角度分析,这四个范式的重要性一个比一个低。实验是最硬的科学发现,你理论说得再漂亮,也要通过实验来验证,这是实打实的东西。而模拟则是实验不好做,理论计算又没法算的情况下一个没有办法的办法。如果你承认我用的方程都是对的,你大约也会承认我模拟的结果,但这个结果永远都需要实验的检验。第四范式--数据挖掘既不能像理论和模拟那样在一定程度上告诉你“为什么”,更不能像实验那样明确地告诉你“是什么”。海量数据分析,只能告诉你“大概是什么”。其精髓就是“客观”,让计算机自己从海量的数据发现模式,也就是共性的、客观的。
“范式”概念是库恩范式理论的核心,而范式从本质上讲是一阵理论体系。库恩指出:“按既定的用法,范式就是一种公认的模型或模式。”