聚类分析笔记-K均值matlab算法（一）

最新推荐文章于 2024-08-20 11:44:39 发布

on2way

最新推荐文章于 2024-08-20 11:44:39 发布

阅读量2.2w

点赞数 4

分类专栏：模式识别&机器学习文章标签： matlab 编程算法模式识别机器学习

本文链接：https://blog.csdn.net/on2way/article/details/41828323

版权

模式识别&机器学习专栏收录该内容

48 篇文章 54 订阅

订阅专栏

一：介绍

关于聚类分析算法，类型较多，用法也不同。先收集一些网上的相关博客，有兴趣可以看看：

1.聚类分析综述：http://blog.csdn.net/assiduousknight/article/details/16831965

2.这个博主整了个聚类分析系列，很好呀，原理介绍部分棒，部分程序是用Java语言写的，熟悉的可以看看。

贴其中一个索引：http://blog.csdn.net/zaozxueyuan/article/details/22613633

3.再收藏一个机器学习算法系列，当然里面有道关于K-均值算法。

贴其中一个索引：http://blog.csdn.net/qq415171148/article/details/25394477

二：关于聚类分析的动态聚类算法

下面的部分内容是看模式课程整理的：

2.1.思想：一）选取K个样本作为聚类中心

二）按某种聚类准则（如：最小距离准则）使所有样本点都找到自己所属的初始类

三）判断分类是否合理，不合理修改分类

四）反复迭代修改直至分类合理

2.常用方法：

● K-均值算法

● ISODATA算法（迭代自组织数据分析算法）（matlab实现书籍上有）

（有点复杂 --> 动态调整分类数目）

（这些算法，matlab都有自带的函数（还没用过！），当明白了算法的原理后，再去用这些函数应该很好）

2.2: K-均值算法 （--->一般使用在已知可以分成几类的情况下效果好）

思想：使聚类性能指标最小化，准则函数：每一个样本点到该类中心的距离平方和最小。

算法： 一）选K个聚类中心，Z（1)......Z（K）。开始可以任意选。

（任意选，选取的准确度与先验知识等等有关，可以考虑）

二）逐个将需要分类的样本进行分类到K个初始类中的某一个中，假设当i=j时，可以满足
，那么x就属于第Sj(k)个。

K：迭代次数，每个样本都得迭代K次才能判断出来那个是最近的。

Sj(k)：第j个聚类，聚类中心为Z(j)

三）计算各个聚类中心的新的值，组成新的聚类中心向量。

N：该类中样本的个数

有了聚类中心向量，可以使用聚类准则函数使函数值最小：

（该步骤中要计算K个聚类的均值，所以叫K-均值）

比较：若，则返回第二步继续迭代，所有的模式样本重新分类。

（此时与上一回合变化的只是聚类中心点，这已经足够了）如果相等，那么很明显算法收敛了（没有改变了）。

讨论该算法：

K-均值受那些因素的影响：

● 所选的聚类数目（最直接的影响，所以说比较适合于已知类别的分类）

● 聚类中心的初始分布

● 样本几何性质（越高维数据，计算量越大）

● 读入样本次序

进一步讨论方法：

● 试验中如果不知道分类数，那么可以试探不同的K值和不同的聚类中心（可以随机产生初始聚类中心）。

● 模式样本本身类之间的差距大时，收敛性较好。

三：简易的matlab程序实现

根据上面的算法思路，编写matlab程序如下：

%--------------函数说明-------------
%-----简单的两类聚类分类问题
%---（模拟数据，已知类别数为2类，K-means在已知类别下使用较好）
%-----------------------------------
function mean = k_means_new
%%
%------------随机生成用于分类的10对坐标---
%--------------（必须具有一定的差异性）
for i=1:100
    x1(i) = rand()*5;      %人为保证差异性
    y1(i) = rand()*5;  
    x2(i) = rand()*5 + 3; %人为保证差异性
    y2(i) = rand()*5 + 3;
end
x = [x1,x2];
y = [y1,y2];
cities = [x;y];
% plot(cities(1,:),cities(2,:),'*');  %画出来
%%
%------------随机把其中两个点作为初始的聚类中心
num = size(cities,2);   %样本个数
m1 = round(rand()*num);    %随机选取两个当做初始聚类中心
m2 = round(rand()*num);
while m1==m2               %不能相同
    m2 = round(rand()*num);
end                
u1 = cities(:,m1);        
u2 = cities(:,m2);
u_old = [u1,u2];
u_new = [u2,u1];
%%
while u_old ~= u_new   %聚类中心没有变化时退出循环
    u_old = u_new ;    %更新聚类中心坐标
    for j=1:num      %对与每一个样本，找到对应的类
        dis1 = norm(cities(:,j)-u1);  %求距离，范数
        dis2 = norm(cities(:,j)-u2);
        if dis1>=dis2  c(j) = 2;    %比较距离，划分类
        else c(j) = 1;
        end
    end
    index1 = find(c==1);   %索引第一类
    index2 = find(c==2);   %...
    sum1 = sum(cities(:,index1),2);  %对第一类中的元素x,y分别求和
    sum2 = sum(cities(:,index2),2);  %...
    u1 = sum1/length(index1);      %对第一类平均，求取新的聚类中心
    u2 = sum2/length(index2);     %...
    u_new = [u1,u2];        %新的聚类中心向量
end
%%
hold on,plot(cities(1,index1),cities(2,index1),'*');  %画出来
hold on,plot(cities(1,index2),cities(2,index2),'+');  
hold on,plot(u1(1),u1(2),'o',u2(1),u2(2),'o');
mean = u_new;

直接运行函数就可以了，改变一下程序第二行的数字参数，使得初始生成的点个数不同，从而测试下效果：

初始点10个：