知识图谱
SL_World
中国科学院大学计算机应用技术专业在读研究生
展开
-
包含特殊字符的Excel表格转换为utf-8编码的csv逗号分隔文件解决方案
问题描述:由于笔者项目需要进行关系图谱展示,需要将每篇论文的作者数据构建成共现矩阵,用以输入到Gephi软件中汇出关系图。故,对于爬取的作者数据(存储在Excel中)需要先转换成逗号分隔文件csv。【初始数据及描述】:由于发表会议论文的作者来自不同国家,所以在作者命名上存在有些作者用自己本国语言(如丹麦语、俄语包含如ć、ø、å、ś特殊符号等)的名字作为论文上自己的名字。这就导致了包含这些语言的...原创 2019-04-04 20:30:37 · 10494 阅读 · 0 评论 -
Python构建共现矩阵并将其三元组形式存储至csv文件
引言:共现矩阵有什么用?主要用于发现主题,解决词向量相近关系的表示;将共现矩阵行(列)作为词向量,其表现形式类似于数据结构中图论里学的邻接矩阵。在本文中,笔者主要用来统计会议论文作者之间的合作关系。【举例】:假设有三篇论文,每篇论文作者名字如下。我们根据上述原始数据构建如下共现矩阵,由如下矩阵可以看出,Yang Liu和Wenwu Zhu在上述窗口中共同出现(co-occurrence)...原创 2019-11-27 16:39:29 · 8153 阅读 · 18 评论 -
手把手教你上手Gephi制作基于共现矩阵的论文作者关系图谱
引言:Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。——摘自百度百科提前预览下我们要做出来关系图谱有木有很心动的感觉?!!那就赶快和我一起上车吧✿✿ヽ(°▽°)ノ✿一、数据准备①节点数据:对于大规模节点和复杂的关系,无法通过手动一个一个节点的添加,往往通过程序处理好程序存储在xlsx表格或csv文...原创 2019-04-06 11:25:41 · 17831 阅读 · 11 评论 -
基于Django+LayUI+HBase的文献数据挖掘系统的实现
引言:本系统的目标是设计并实现一个基于分布式数据库HBase的文献数据挖掘系统,以帮助科研人员分析出相关科技前沿领域的专家、机构等的学术影响力。并挖掘领域高频词和不同协作者之间的关系图谱,如此便可达到科研决策支持的目的。以下将从几个方面进行简要介绍。一、开发意义科研文献是科技与学术的载体,高效的分析科研文献对科技的发展有着重要的推动作用。准确地提取出期刊会议中科研文献元数据里所隐藏的信息,...原创 2019-06-01 13:37:16 · 3615 阅读 · 2 评论