【论文笔记】《一种改进的多视图聚类集成算法》

论文作者:邓强,杨燕,王浩

论文类型:应用型论文

论文地址:http://www.cnki.com.cn/Article/CJFDTotal-JSJA201701013.htm

论文时间:2017年

论文内容:

  1. 基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。
  2. 结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。

1 引言

在多视图聚类中,聚类数据由多个视图构成,具有一致性和互补性的特点,所有视图共享同一标签信息。

多视图聚类就是要找到一个满足所有视图的最优划分。

聚类结果容易受到聚类参数和数据样本的影响→聚类集成。

Spark并行化提高聚类效率。

2 基本原理

2.1 多视图 K-means聚类

输入:多视图数据集,视图权重向量

聚类目标函数(在一般的目标函数中结合了[多维]和[视图权重]),使每个视图点间距平方和最小:

设多视图数据集 X=[x1, x2,…,xm ]∈Rdv×n ,1≤v≤m,表示数据集的样本数为n,视图个数为 m,每个视图的维度是dv。k等于聚类簇的个数

μji=1表示样本j属于簇i, xj(v)表示在视图v 下的样本j, ci(v) 表示在视图v下的第i个簇的聚类中心。

2.2 聚类集成

对数据进行r次聚类,得到一组聚类划分 P={π1,π2,…,πr},πi表示第i个聚类划分。则聚类集成可表示为如下形式: P={π1,π2,…,πr}→π*。

以聚类划分P作为输入,然后输出新的相似度矩阵CTS,提高集成算法准确性

3 多视图聚类集成

 

4 分布式多视图聚类集成算法

4.1 分布式多视图 K-means算法(DMKC)

4.2 分布式多视图聚类集成算法 (DMKCE)

5 实验

5.1 多视图聚类集成算法对比实验

实验对比算法采用了经典聚类算法、多视图聚类算法以及多视图聚类集成算法

5.2 分布式算法性能实验

数据:不同规模大小的数据样本 

分析:执行时间、 加速比(数据不变增加计算节点)、数据伸缩率(计算节点不变增加数据)

 

 

 

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值