SDCN--在bbc数据集下的结果

Flame5376

已于 2023-08-14 16:03:09 修改

阅读量199

点赞数 1

文章标签：聚类

于 2023-08-11 21:23:11 首次发布

本文链接：https://blog.csdn.net/m0_46114999/article/details/132240013

版权

bbc数据集在SDCN算法下的结果

SDCN初始化

        args.lr = 1e-4
        args.k = None
        args.n_clusters = 5
        args.n_input = 5000

AE pretrain 数值

model = AE(
        n_enc_1=500,
        n_enc_2=500,
        n_enc_3=2000,
        n_dec_1=2000,
        n_dec_2=500,
        n_dec_3=500,
        n_input=5000,
        n_z=10,).cuda()

其中5000是通过tfidf处理后的最多提取的特征数

AE预训练结果

在这里插入图片描述

可以从图中看出，最开始的指标很低，在200多epoch后达到最高值，loss呈现下降（但不知道为什么loss那么低）

SDCN结果

在这里插入图片描述
从图中可以看到，Q和P指标较为接近，且比Z指标高很多

            res1 = tmp_q.cpu().numpy().argmax(1)       #Q
            res2 = pred.data.cpu().numpy().argmax(1)   #Z
            res3 = p.data.cpu().numpy().argmax(1)      #P

Q, Z, P在train_sdcn函数中表示:

目标分布P（SDCN-P）：它是通过自编码器学习到的数据表示。目标分布P能够引导整个模型的更新，提供了一个准确性较高的参考。
分布Q（SDCN-Q）：它是通过图卷积网络（GCN）学习到的数据表示。由于自编码器和GCN学习到的信息可能存在差异，因此SDCN-Q可能与目标分布P产生冲突。
分布Z（SDCN-Z）：也是通过图卷积网络（GCN）学习得到的数据表示。随着训练轮数增加，并且受目标分布P引导缓解冲突后，SDCN-Z逐渐趋于一致并提高准确性。
三者关系可由SDCN框架图显示：

稳定结果

三个指标的acc都稳定在0.8，nmi在0.7，ari在0.65，f1在0.77
在这里插入图片描述

Flame5376

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
SDCN--在bbc数据集下的结果

Z(硬聚类结果): 通过模型预测得到的硬聚类, 将Q转换为hard cluster assignment。P(优化目标即理想的软聚类分布): 目标分布,也就是理想的soft cluster assignment。Q(软聚类结果): 通过模型预测得到的软聚类,即数据点属于每个cluster的概率。它是tmp_q变量,通过模型的自编码器和GCN模块预测得到。可以从图中看出，最开始的指标很低，在200多epoch后达到最高值，loss呈现下降（但不知道为什么loss那么低）
复制链接

扫一扫