本帖最后由 542507066 于 2012-12-5 13:46 编辑
最近在学K-means算法。这个程序有点看不懂,且运行出来不是最后最优结果。
麻烦论坛里的大侠们帮我看看是哪里出问题了。万分感谢!!!
算法大致思路:
1、从给定样本中任选几个点作为初始中心(我取k=2)
2、计算其余点分别和初始中心点的距离,跟哪个初始中心近就跟那个中心点归为一类(欧式距离公式),直到各自为“派别”
3、在分好类的基础上按平均值的方法重新计算聚类中心点,再重复第二步...以此类推
4、直到最后算法收敛(可以理解为中心点不再变动)则结束。
程序如下:(下附程序M文件和txt数据)function group=Kmeans(k,mid)
%K均值聚类算法
person=load('sample.txt') %'height','weight'
%从文本文件读入数据放入person结构体中
%person=person(1:10,:);
num=size(person,1);%取person的行数,故num=20
%*************************************************************************
%赋初始值,划分为k类,每类只有选定的k个对象中的一个对象,每类的中心为选定的k个对象的值
for i=1:k
cluster{i}(1)=mid(i);
middle(i,1)=person(mid(i),1); %任选的初始聚类中心给middle
middle(i,2)=person(mid(i),2);
end
%*************************************************************************
distance=ComputDistance(person,middle,num,k);%计算每个样本跟各类中心的距离
temp=cell(size(cluster));
flag=isSL(temp,cluster,k);%判断当前类有没有变化即是否收敛
while flag==0 %当分类不收敛的时候
temp=cluster;
cluster=cell(size(temp));
for i=1:num %循环20次
[value,index]=min(distance(i,:)); %找到每个样本距离哪个类最近
dtemp=;
cluster{index}=[cluster{index},dtemp]; %将该样本划分到距离最近的类中
end
middle=ComputMid(person,cluster,k);%___________重新计算各类中心点
distance=ComputDistance(person,middle,num,k);%重新计算各样本与各类的距离
flag=isSL(temp,cluster,k);%判断当前类有没有变化
end
celldisp(cluster)
for i=1:k
group{i}=person(cluster{i}(:),:);
end
for i=1:k
covMat=cov(group{i});
fprintf('第%d类的聚类中心坐标为:\n',i);
disp(middle(i,:))
fprintf('第%d类的协方差矩阵为:\n',i);
disp(covMat)
end
%*************************************************************
%作图程序
for k=1:2,
if k==1,
[m,n]=size(group{k});
for i=1:m
plot(group{k}(i,1),group{k}(i,2),'r*')
hold on
end
else if k==2,
[m1,n1]=size(group{k});
for i=1:m1
plot(group{k}(i,1),group{k}(i,2),'g*')
hold on
end
end
end
end
title('K-means聚类图例')
xlabel('聚类点横坐标')
ylabel('聚类点纵坐标')
%****************************************************************
%**********************************************************************
%以下为调用的自定义函数
%**********************************************************************
function m=ComputMid(person,cluster,k)%计算各类中心点
%结果返回到m矩阵中
for i=1:k
length=size(cluster{i},1);
csum1=0;
csum2=0;
for j=1:length
csum1=csum1+person(cluster{i}(j),1);
csum2=csum2+person(cluster{i}(j),2);
end
m(i,1)=csum1/length;
m(i,2)=csum2/length;
% m(i,1)=sum(person(cluster{i}(:),1))/size(cluster{i},1);
% m(i,2)=sum(person(cluster{i}(:),2))/size(cluster{i},1);
end
%*************************************************************************
function d=ComputDistance(person,middle,num,k)%计算每个样本跟各类中心的距离
%结果返回到d矩阵中
for i=1:num
for j=1:k
d(i,j)=sqrt((person(i,1)-middle(j,1)).^2+(person(i,2)-middle(j,2)).^2); %欧氏距离
end
end
%************************************************************************
function flag=isSL(temp,cluster,k)%判断当前类有没有变化即是否收敛
%有变化则返回0,否则返回1
for i=1:k
if size(temp{i},1)==size(cluster{i},1)
for j=1:size(cluster{i},1)
if temp{i}(j)~=cluster{i}(j)
flag=0;
return;
end
end
flag=1;
else
flag=0;
return;
end
end