【聚类研究3】数据预处理

最新推荐文章于 2024-06-25 17:02:11 发布

月半SSS

最新推荐文章于 2024-06-25 17:02:11 发布

阅读量5.2k

点赞数

分类专栏：聚类文章标签：聚类研究

本文链接：https://blog.csdn.net/qq_38340079/article/details/80100752

版权

数据预处理

1.前言

虽然之前已经写了两篇，但是其实只到了能和聚类算法接轨的第一步，回顾一下：

j:67篇期刊，包括计算机、数学、生物、工程技术四大类;

p2j矩阵：28W论文idX对应的期刊id;

j2j矩阵：67X67X期刊关联度；其中包含1103行期刊关系；

p2p矩阵：28W论文idX179W论文id; 其中包含456W行论文引用关系；

2.预处理的必要性

1.由于联合聚类中每一对关联矩阵都有U、V记录其隶属度，处于处理时间、空间考虑，不能使用如此大的矩阵；

2.这些矩阵都是极其稀疏的矩阵，其中诸如（只引用了1到2篇论文的论文）（只被1到2篇论文引用的论文）数量很多且无大贡献；

3.预处理步骤

step1:对于p2p矩阵（叫做p2R矩阵）去除np=1,2;nR=1,2的行、列；

1.对于每篇论文，统计其引用论文的个数，如下：

len_p2p=length(m_p2p);
num_p2p=zeros;%记录各论文的个数

before=0;
index=0;

for i=1:len_p2p
    if m_p2p(i,1) ~= before
        index=index+1;
        before=m_p2p(i,1);
        num_p2p(index,1)=before;
        num_p2p(in

最低0.47元/天解锁文章

月半SSS

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【聚类研究3】数据预处理

数据预处理1.前言虽然之前已经写了两篇，但是其实只到了能和聚类算法接轨的第一步，回顾一下：j:67篇期刊，包括计算机、数学、生物、工程技术四大类;p2j矩阵：28W论文idX对应的期刊id;j2j矩阵：67X67X期刊关联度；其中包含1103行期刊关系；p2p矩阵：28W论文idX179W论文id; 其中包含456W行论文引用关系；2.预处理的必要性1.由于联合聚类中每一对关联矩阵都有U、V记录...
复制链接

扫一扫

专栏目录