聚类
文章平均质量分 91
月半SSS
月半努力学习中
展开
-
【聚类研究】数据处理1
基于论文、期刊、作者关系的联合聚类研究1.数据来源:来自KDD CUP 2016使用的DATA:MAG 2016http://www.kdd.org/kdd-cup/view/kdd-cup-2016/Data点击打开链接https://www.openacademic.ai/oag/点击打开链接2.已有数据:67个期刊的ID,名称,分类信息; 文件 67期刊信息-节点.csv67X67的期刊-期...原创 2018-03-22 19:14:50 · 394 阅读 · 1 评论 -
【聚类研究2】建立论文、期刊矩阵
数据预处理-建立聚类所需的论文、期刊等矩阵已有数据250W行的论文-引用论文数据,25W行的论文-期刊数据p2j 28,5855行 5584KBp22 4561,866行 84644KB平均一篇论文引用15.95篇论文可是使用LTF打开发现一篇没有那么多的验证:去具体搜了一篇论文id,发现其散落在论文引用关系的各个角落,至少10+预期结果大约100W行X100W行的论文矩阵(稀疏矩阵,01存储)6...原创 2018-03-30 10:45:11 · 409 阅读 · 0 评论 -
【聚类研究3】数据预处理
数据预处理1.前言虽然之前已经写了两篇,但是其实只到了能和聚类算法接轨的第一步,回顾一下:j:67篇期刊,包括计算机、数学、生物、工程技术四大类;p2j矩阵:28W论文idX对应的期刊id;j2j矩阵:67X67X期刊关联度;其中包含1103行期刊关系;p2p矩阵:28W论文idX179W论文id; 其中包含456W行论文引用关系;2.预处理的必要性1.由于联合聚类中每一对关联矩阵都有U、V记录...原创 2018-04-26 22:19:48 · 5280 阅读 · 0 评论