MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法:
1.层次聚类 hierarchical clustering
2.k-means聚类
这里用最简单的实例说明以下层次聚类原理和应用发法。
层次聚类是基于距离的聚类方法,MATLAB中通过pdist、linkage、dendrogram、cluster等函数
来完成。层次聚类的过程可以分这么几步:
(1) 确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征对
象之间差异的距离,例如最简单的平面上点的聚类中,最经常使用的就是欧几里得距离。
这在MATLAB中可以通过Y=pdist(X)实现,例如
>> X=randn(6,2)
X =
-0.4326 1.1892
-1.6656 -0.0376
0.1253 0.3273
0.2877 0.1746
-1.1465 -0.1867
1.1909 0.7258
>> plot(X(:,1),X(:,2),'bo') %给个图,将来对照聚类结果把
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~图1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
>> Y=pdist(X)
Y =
Columns 1 through 14
1.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.5401