集成聚类之EAC方法

tyh70537

于 2017-08-13 20:04:19 发布

阅读量7.8k

点赞数 8

分类专栏：聚类算法有效性检验文章标签： EAC 集成聚类 clustering ensemble

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tyh70537/article/details/77149482

版权

聚类算法同时被 2 个专栏收录

9 篇文章

订阅专栏

有效性检验

4 篇文章

订阅专栏

刚看完一篇集成聚类的文章：
Combining Multiple Clusterings Using Evidence Accumulation（EAC）
做个简单的笔记，方便复习。

和一般的集成聚类不同，EAC并不直接组合不同的划分，而是由这些不同的划分得到一个邻近度矩阵（proximity matrix），之后便可在这个邻近度矩阵上运用层次聚类中的单连接（single link)或平均连接(average link)算法得到最终的划分。
（单连接算法：http://blog.csdn.net/tyh70537/article/details/76768802）

首先要想的到不同的划分（partition）有以下方法：
1，使用不同的聚类算法
2，使用相同的算法，但进行不同的初始化或使用不同的参数
3，使用不同的特征空间

假设数据集 $X$ 包含n个样本， $X=\{x_1,x_2,\cdots,x_n\}$ 。现有m种不同的划分，划分集合 $P=\{P^1,P^2,\cdots,P^m\}$ ，注意EAC并不限制每种划分中的簇的个数。EAC算法构建一个n*n的邻近度矩阵D， $N_{ij}=N_{ji}$ 表示样本i和样本j在m种划分中属于同一个簇的次数。则矩阵D的元素 $D_{ij}=N_{ij}/m$ ，在D的基础上运营单连接算法，得到最终的划分。

相比一般层次聚类中使用的邻近度矩阵，
EAC方法集成不同的划分构建新的邻近度矩阵，新的邻近度矩阵相比直接使用原始数据构建的邻近度矩阵，更能反应样本之间的关系。

下面几张图说明用EAC集成k-means和单一的k-means算法的不同效果：

原始数据的分布情况如下：

这里写图片描述

使用单个k-means算法（k=25）:
这里写图片描述

使用单个k-means算法（k=11）：
这里写图片描述

EAC法（集成了30个k-means划分，每种划分的簇的数量k随机从区间 $[10,30]$ 里选择）：
这里写图片描述

可以看出，集成后的k-means算法可以识别复杂的结构。

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。