为了实现BOW模型,需要Kmeans聚类算法,使用Matlab自带的聚类算法时,出现了不能收敛的问题,想要改进的话也是不方便。
于是决定动手编写一个,在编写过程中总是想不到怎样把同一类的样本聚在一起,这个问题困扰了自己很长的时间,终于在大牛人Rachel Zhang 的博客里面找到了解决的办法,就是下面这关键的一句,省去了很多麻烦。
[~,label(i)] = min(D);]
现把自己写的放到下面,一起进步。
tic
clear all;
clc;
load data/backpack.mat
dat=backpack(:,2:size(backpack,2));
clear backpack
%%
K=20;%聚类数
Iter=150;%最大迭代次数
thresh=0;%阈值
[dat_row,dat_col]=size(dat);
% kCenter=zeros(K,dat_col);%聚类中心点
kIndex=randperm(dat_row,K);
kCenter=dat(kIndex,:);
%%
label=zeros(dat_row,1);
Mse=zeros(1,Iter);
iter=1;
czMse=thresh+1;
D=zeros(1,K);
while 1
%第一次迭代
%第一此聚类
for dat_row_=1:dat_row
for K_=1:K
D(K_)=norm(dat(dat_row_,:)-kCenter(K_,:));
end
[~,label(dat_row_)]=min(D);
end
clear dat_row_ K_ D
%新的聚类中心
tempEvalue=0;
for K_=1:K
tempClusterIndex= label==K_;
if ~isempty(tempClusterIndex)
tempCluster=dat(tempClusterIndex,:);
kCenter(K_,:)=mean(tempCluster);
tempClusterRow=size(tempCluster,1);
for tempClusterRow_=1:tempClusterRow
tempEvalue=tempEvalue+norm(tempCluster(tempClusterRow_,:)...
-kCenter(K_,:));
end
end
end
clear K_ tempClusterIndex tempCluster tempClusterRow_ tempClusterRow
Mse(iter)=tempEvalue;
disp(iter);
if iter>=2
czMse=Mse(iter-1)-Mse(iter);
disp(czMse);
end
iter=iter+1;
if abs(czMse)<=thresh %达到阈值后跳出循环
disp('kCenter Founded');
break;
elseif iter>Iter %达到最大迭代次数后跳出循环
disp('kCenter not Founded')
break;
end
end
toc