前两天有一篇文章《慕容复:如果乔峰回来,我有信心再赢一次》在科技圈范围内很火,暗指的事情也很简单,谷歌“登陆”让厂长不淡定了
作者很巧妙的用慕容复和乔峰的对比展开了讨论,不仅含沙射影的吐槽了度娘还引起我们一波回忆杀,主题曲《难念的经》献上。
碰巧本研究僧最近在研究社交网络系统分析,咱们针对《天龙八部》来分析分析谁才是主角!
分析思路
将《天龙八部》所有人物列表梳理出来并统计人物在小说中的出场次数;
以段落行为单位进行划分,通过笛卡尔积的方式计算两个人物的亲密度;
首先找到约130万字、1万1千多行的《天龙八部》精校版本
按人物出场顺序找到了232位角色,怎么这么多?配角也是人啊,兄dei !
准备工作搞定后,开始实现了,分三步走:
1、人物出场次数统计;
2、人物关系统计;
3、绘制关系图谱(点击放大);
啥,看不清?好放大一下
找到慕容复了吗,哈哈,不过发现除了三大主角:乔峰、虚竹和段誉外,还一个有意思的男女关系:乔峰和啊朱之爱,段誉和王语嫣之恋,虚竹和童姥?!
本次实现的不足之处
根据上文描述的统计方法来进行统计显然是粗略的,仅供娱乐学习研究;
目前是按自然段处理人物的紧密关系,实际某些复杂的人物关系是贯穿全文的;
单纯利用笛卡尔积来描绘人物之间的关系亲密度需要进一步思考。
文本噪音数据的处理需要手工操作,智能化不足;
实现代码和逻辑参考
《CSDN:扒完社交网络关系才明白,《权力的游戏》凭什么是神作》
《CSDN:python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——人物关系可视化》
《wiki:Social network analysisSocial network analysis》
《知乎:「社交网络分析」是门怎样的学科?》
《论文:Throne Of Network_》
附:社交网络分析(Social Network Analysis)是从网络和图论角度入手,分析社会结构的一种方法,是计算社会学(Computational Sociology)_的一种代表性研究方法。因为研究过程基于数据和量化分析,但是研究对象一般是社会问题,所以也是交叉学科的代表。