Cluster 技术总结

DNA microarray分析中,聚类分析(clustering analysis)是非常重要的一步。今天学习了Pan Ning Tan的introduction to data mining ,进行一下总结:

1. 聚类分析的分类

1) 按照是否有层次:

层次聚类(hierarchical clustering)

划分聚类(partitioninng clustering)

2)按照是否依据模型:

non-parameter clustering:没有默认的assumption整个数据集是由哪几种分布mix的

model-based clustering: 基于模型的聚类认为不同的‘类’有不同的‘分布’,同一个类的分布是相同的, 往往采用一种个期望最大化算法(EM):先设定初始值,然后计算每个对象属于每个分布的概率,得到这些概率后再根据特定公式加权(概率为权重)求出最大化该期望的新的参数估计,直到参数不再改变。

model-based clustering如果恰好fit哪个数据的话,会有更好的performance。

2. 聚类分析的特性

如K-means往往适用于球形的类。假如类的形状是‘月牙’,K-means往往效果不好;

DBSCAN则适用于密度不同的类。同时,DBSCAN不适用于高维数据。

3. 评估聚类的效果

1) 一些参数,如SSE, 凝聚度、分离度; sihouette plot,median split sihouette 

2)  correlation heatmap: 理想效果是沿对角线呈一块一块

3)重取样(resampling: 如bootstrap):我们看到cluster后的sample在一块,并不能代表它们之间很稳定,很可能再加上几个sample,它们便不在一起了。通过resampling,看这些sample在一起的概率多少,从而判断聚类的稳定性。

 

 

转载于:https://www.cnblogs.com/foreverycc/archive/2013/04/18/3027969.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值