数据预处理
1.前言
虽然之前已经写了两篇,但是其实只到了能和聚类算法接轨的第一步,回顾一下:
j:67篇期刊,包括计算机、数学、生物、工程技术四大类;
p2j矩阵:28W论文idX对应的期刊id;
j2j矩阵:67X67X期刊关联度;其中包含1103行期刊关系;
p2p矩阵:28W论文idX179W论文id; 其中包含456W行论文引用关系;
2.预处理的必要性
1.由于联合聚类中每一对关联矩阵都有U、V记录其隶属度,处于处理时间、空间考虑,不能使用如此大的矩阵;
2.这些矩阵都是极其稀疏的矩阵,其中诸如(只引用了1到2篇论文的论文)(只被1到2篇论文引用的论文)数量很多且无大贡献;
3.预处理步骤
step1:对于p2p矩阵(叫做p2R矩阵)去除np=1,2;nR=1,2的行、列;
1.对于每篇论文,统计其引用论文的个数,如下:
len_p2p=length(m_p2p);
num_p2p=zeros;%记录各论文的个数
before=0;
index=0;
for i=1:len_p2p
if m_p2p(i,1) ~= before
index=index+1;
before=m_p2p(i,1);
num_p2p(index,1)=before;
num_p2p(in