【聚类研究3】数据预处理

数据预处理

1.前言

虽然之前已经写了两篇,但是其实只到了能和聚类算法接轨的第一步,回顾一下:

j:67篇期刊,包括计算机、数学、生物、工程技术四大类;

p2j矩阵:28W论文idX对应的期刊id;

j2j矩阵:67X67X期刊关联度;其中包含1103行期刊关系;

p2p矩阵:28W论文idX179W论文id;  其中包含456W行论文引用关系;

2.预处理的必要性

1.由于联合聚类中每一对关联矩阵都有U、V记录其隶属度,处于处理时间、空间考虑,不能使用如此大的矩阵;

2.这些矩阵都是极其稀疏的矩阵,其中诸如(只引用了1到2篇论文的论文)(只被1到2篇论文引用的论文)数量很多且无大贡献;

3.预处理步骤

step1:对于p2p矩阵(叫做p2R矩阵)去除np=1,2;nR=1,2的行、列;

1.对于每篇论文,统计其引用论文的个数,如下:

len_p2p=length(m_p2p);
num_p2p=zeros;%记录各论文的个数

before=0;
index=0;

for i=1:len_p2p
    if m_p2p(i,1) ~= before
        index=index+1;
        before=m_p2p(i,1);
        num_p2p(index,1)=before;
        num_p2p(in
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值