数据挖掘
SL_World
中国科学院大学计算机应用技术专业在读研究生
展开
-
带你玩转谱聚类及拉普拉斯矩阵
引言:在多变量统计和数据聚类中,谱聚类(Spectral Clustering)技术利用数据的相似矩阵的谱(特征值)进行降维。它将数据看成空间中的点,点对之间有边相连,距离越远的点对其边权值越小,距离越近的点对其边权值越大。它将聚类问题转化为切图问题,使得切图后的总代价最小。即子图内点对之间边权值较大,子图间边权值较小。得到切图后子图的个数即为聚类的个数。最后本文力求用推理而非演绎的方式以加深大...原创 2020-02-21 10:29:06 · 13547 阅读 · 18 评论 -
基于Django+LayUI+HBase的文献数据挖掘系统的实现
引言:本系统的目标是设计并实现一个基于分布式数据库HBase的文献数据挖掘系统,以帮助科研人员分析出相关科技前沿领域的专家、机构等的学术影响力。并挖掘领域高频词和不同协作者之间的关系图谱,如此便可达到科研决策支持的目的。以下将从几个方面进行简要介绍。一、开发意义科研文献是科技与学术的载体,高效的分析科研文献对科技的发展有着重要的推动作用。准确地提取出期刊会议中科研文献元数据里所隐藏的信息,...原创 2019-06-01 13:37:16 · 3572 阅读 · 2 评论 -
手把手教你上手Gephi制作基于共现矩阵的论文作者关系图谱
引言:Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。——摘自百度百科提前预览下我们要做出来关系图谱有木有很心动的感觉?!!那就赶快和我一起上车吧✿✿ヽ(°▽°)ノ✿一、数据准备①节点数据:对于大规模节点和复杂的关系,无法通过手动一个一个节点的添加,往往通过程序处理好程序存储在xlsx表格或csv文...原创 2019-04-06 11:25:41 · 17536 阅读 · 11 评论 -
Python构建共现矩阵并将其三元组形式存储至csv文件
引言:共现矩阵有什么用?主要用于发现主题,解决词向量相近关系的表示;将共现矩阵行(列)作为词向量,其表现形式类似于数据结构中图论里学的邻接矩阵。在本文中,笔者主要用来统计会议论文作者之间的合作关系。【举例】:假设有三篇论文,每篇论文作者名字如下。我们根据上述原始数据构建如下共现矩阵,由如下矩阵可以看出,Yang Liu和Wenwu Zhu在上述窗口中共同出现(co-occurrence)...原创 2019-11-27 16:39:29 · 8100 阅读 · 18 评论 -
包含特殊字符的Excel表格转换为utf-8编码的csv逗号分隔文件解决方案
问题描述:由于笔者项目需要进行关系图谱展示,需要将每篇论文的作者数据构建成共现矩阵,用以输入到Gephi软件中汇出关系图。故,对于爬取的作者数据(存储在Excel中)需要先转换成逗号分隔文件csv。【初始数据及描述】:由于发表会议论文的作者来自不同国家,所以在作者命名上存在有些作者用自己本国语言(如丹麦语、俄语包含如ć、ø、å、ś特殊符号等)的名字作为论文上自己的名字。这就导致了包含这些语言的...原创 2019-04-04 20:30:37 · 10401 阅读 · 0 评论 -
文本挖掘之WordCloud+Python3快速生成中英文词云图
引言: “词云”,又称文字云,是由词汇组成类似云的彩色图形。可对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。       &am原创 2019-03-18 12:21:03 · 5724 阅读 · 0 评论 -
Excel中COUNTIFS函数统计词频个数出现次数
原文出处:https://www.bbsmax.com/A/GBJrn2QKJ0/ 在Excel中经常需要实现如下需求:在某一列单元格中有不同的词语,有些词语相同,有的不同(如图1所示)。需要统计Excel表格中每个词语出现的个数,即相当于统计词频出现次数。图1. Excel表格统计个数解决方法:采用COUNTIFS函数。COUNTIFS 函数语法及格式:COUNTIFS(c...转载 2019-03-20 10:48:05 · 13071 阅读 · 0 评论