转自:http://www.cnblogs.com/zcftech/p/3147062.html
对Kmeans方法相信大家都会不陌生,这是一种广泛被应用的基于划分的聚类算法。首先对它的核心思想做一个简单的介绍:
算法把n个向量xj(1,2…,n)分为c个组Gi(i=1,2,…,c),并求每组的聚类中心,使得非相似性(或距离)指标的价值函数(或目标函数)达到最小。当选择欧几里德距离为组j中向量xk与相应聚类中心ci间的非相似性指标时,价值函数可定义为:
这里Ji是组i内的价值函数。这样Ji的值依赖于Gi的几何特性和ci的位置。一般来说,可用一个通用距离函数d(xk,ci)代替组I中的向量xk,则相应的总价值函数可表示为:
划分过的组一般用一个c×n的二维隶属矩阵U来定义。如果第j个数据点X(j)属于组i,则U中的元素U(i,j)为1;否则,该元素取0。一旦确定聚类中心v(i),可导出如下使式(1.1)最小:
强调一点,如果v(i)是X(j)的最近的聚类中心,那么X(j)属于i组。由于一个给定数据只能属于一个组,所以隶属矩阵U具有如下性质:
Kmeans虽然简单实用,但是对于一些实际问题在功能上还是略显逊色,同时它还有一个先天的不足,那就是它是一种硬性的划分方法。FCM算法是对硬性划分的一种改进,其核心思想如下:
FCM把n个向量xi(i=1,2,…,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于1:
那么,FCM的价值函数(或目标函数)就是式(1.1)的一般化形式:
这里U(i,j)介于0,1之间;C(i)为模糊组I的聚类中心;d(i,j)是模糊组I的聚类中心到第j个数据之间的欧式距离;为了获得使得该目标函数最小值的条件,重新构造目标函数如下:
这里lj,j=1到n,是(2.1)式的n个约束式的拉格朗日乘子。对所有输入参量求导,使式(2.2)达到最小的必要条件为:
由上述两个必要条件,模糊C均值聚类算法是一个简单的迭代过程。在批处理方式运行时,FCM用下列步骤确定聚类中心ci和隶属矩阵U[1]:
步骤1:用值在0,1间的随机数初始化隶属矩阵U,使其满足式(2.1)中的约束条件
步骤2:用式(2.4)计算c个聚类中心ci,i=1,…,c。
步骤3:根据式(2.2)计算价值函数。如果它小于某个确定的阀值,或它相对上次价值函数值的改变量小于某个阀值,则算法停止。
步骤4:用(2.5)计算新的U矩阵。返回步骤2。
上述算法也可以先初始化聚类中心,然后再执行迭代过程。由于不能确保FCM收敛于一个最优解。算法的性能依赖于初始聚类中心。
关于FCM算法的介绍就到这里了,下讲将会针对一个实际例子给出实现代码:
这节继续上节的KMeans进行介绍,上节主要是对模糊KMeans方法的原理做了介绍,没有实践印象总是不深刻,前段时间有个师姐让我帮着写了个模糊KMeans的算法,今天就拿她给出的例子来对这个方法做个实践讲解。她给的数据是n个行业在m年内的资源消耗参数,想通过FCM算法对这些行业进行聚类,从而在能耗上对它们进行分类。处理的数据很简单,所以用FCM这种简单的聚类算法就足可以达到要求了。给出数据的一角:
具体处理过程我就不啰嗦了,核心思想就是FCM算法,给出一个具体的流程图
根据步骤我将算法实现分成了五个子函数和一个主函数,直接上代码(其中有详细的解释)
% 子函数1
function U = initfcm(cluster_n, data_n)
% 初始化fcm的隶属度函数矩阵
% 输入:
% cluster_n ---- 聚类中心个数
% data_n ---- 样本点数
% 输出:
% U ---- 初始化的隶属度矩阵
U = rand(cluster_n, data_n);
col_sum = sum(U);
U = U./col_sum(ones(cluster_n, 1), :);
% 子函数2 function [U_new, center, obj_fcn] = stepfcm(data, U, cluster_n, expo) % 模糊C均值聚类时迭代的一步 % 输入: % data ---- nxm矩阵,表示n个样本,每个样本具有m的维特征值 % U ---- 隶属度矩阵 % cluster_n ---- 标量,表示聚合中心数目,即类别数 % expo ---- 隶属度矩阵U的指数 % 输出: % U_new ---- 迭代计算出的新的隶属度矩阵 % center ---- 迭代计算出的新的聚类中心 % obj_fcn ---- 目标函数值 mf = U.^expo; % 隶属度矩阵进行指数运算结果 center = mf*data./((ones(size(data, 2), 1)*sum(mf'))'); % 新聚类中心(5.4)式 dist = distfcm(center, data); % 计算距离矩阵 obj_fcn = sum(sum((dist.^2).*mf)); % 计算目标函数值 (5.1)式 tmp = dist.^(-2/(expo-1)); U_new = tmp./(ones(cluster_n, 1)*sum(tmp)); % 计算新的隶属度矩阵 (5.3)式
% 子函数3 function out = distfcm(center, data) % 计算样本点距离聚类中心的距离 % 输入: % center ---- 聚类中心 % data ---- 样本点 % 输出: % out ---- 距离 out = zeros(size(center, 1), size(data, 1)); for k = 1:size(center, 1), % 对每一个聚类中心 % 每一次循环求得所有样本点到一个聚类中心的距离 out(k, :) = sqrt(sum(((data-ones(size(data,1),1)*center(k,:)).^2)',1)); end
% 子函数4 function DataOut = Unitfcm(DataOrg) % 对输入数据进行标准化和归一化处理 % 输入: % DataOrg ---- 样本数据 % 输出: % DataOut ---- 归一化数据 X_col=sum(DataOrg,1)./size(DataOrg,1); S_col=sqrt(sum((DataOrg-X_col(ones(size(DataOrg,1),1),:)).^2,1)./(size(DataOrg,1)-1)); DataUnit=(DataOrg-X_col(ones(size(DataOrg,1),1),:))./S_col(ones(size(DataOrg,1),1),:);%标准化结果 C_col=max(abs(DataUnit),[],1); DataOut=(DataUnit+C_col(ones(size(DataUnit,1),1),:))./(2*C_col(ones(size(DataUnit,1),1),:));%归一化后的结果
% 子函数5 function ShowResult(U) % 呈现聚类结果 % 输入: % U ---- 隶属度矩阵 for i=1:size(U,2) data=U(:,i); [row,col]=find(data==max(data)); disp(['第',num2str(i),'个样本属于',num2str(row),'类']); end
function [center, U, obj_fcn] = FCMClust(data, cluster_n, options) % FCMClust.m 采用模糊C均值对数据集data聚为cluster_n类 % 用法: % 1. [center,U,obj_fcn] = FCMClust(Data,N_cluster,options); % 2. [center,U,obj_fcn] = FCMClust(Data,N_cluster); % 输入: % data ---- nxm矩阵,表示n个样本,每个样本具有m的维特征值 % N_cluster ---- 标量,表示聚合中心数目,即类别数 % options ---- 4x1矩阵,其中 % options(1): 隶属度矩阵U的指数,>1 (缺省值: 2.0) % options(2): 最大迭代次数 (缺省值: 100) % options(3): 隶属度最小变化量,迭代终止条件 (缺省值: 1e-5) % options(4): 每次迭代是否输出信息标志 (缺省值: 1) % 输出: % center ---- 聚类中心 % U ---- 隶属度矩阵 % obj_fcn ---- 目标函数值 % Example: % data = rand(100,2); % [center,U,obj_fcn] = FCMClust(data,2); % plot(data(:,1), data(:,2),'o'); % hold on; % maxU = max(U); % index1 = find(U(1,:) == maxU); % index2 = find(U(2,:) == maxU); % line(data(index1,1),data(index1,2),'marker','*','color','g'); % line(data(index2,1),data(index2,2),'marker','*','color','r'); % plot([center([1 2],1)],[center([1 2],2)],'*','color','k') % hold off; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% if nargin ~= 2 & nargin ~= 3, %判断输入参数个数只能是2个或3个 error('Too many or too few input arguments!'); end data_n = size(data, 1); % 求出data的第一维(rows)数,即样本个数 in_n = size(data, 2); % 求出data的第二维(columns)数,即特征值长度 % 默认操作参数 default_options = [2; % 隶属度矩阵U的指数 100; % 最大迭代次数 1e-5; % 隶属度最小变化量,迭代终止条件 1]; % 每次迭代是否输出信息标志 if nargin == 2, options = default_options; else %分析有options做参数时候的情况 % 如果输入参数个数是二那么就调用默认的option; if length(options) < 4, %如果用户给的opition数少于4个那么其他用默认值; tmp = default_options; tmp(1:length(options)) = options; options = tmp; end % 返回options中是数的值为0(如NaN),不是数时为1 nan_index = find(isnan(options)==1); %将denfault_options中对应位置的参数赋值给options中不是数的位置. options(nan_index) = default_options(nan_index); if options(1) <= 1, %如果模糊矩阵的指数小于等于1 error('The exponent should be greater than 1!'); end end %将options 中的分量分别赋值给四个变量; expo = options(1); % 隶属度矩阵U的指数 max_iter = options(2); % 最大迭代次数 min_impro = options(3); % 隶属度最小变化量,迭代终止条件 display = options(4); % 每次迭代是否输出信息标志 obj_fcn = zeros(max_iter, 1); % 初始化输出参数obj_fcn U = initfcm(cluster_n, data_n); % 初始化模糊分配矩阵,使U满足列上相加为1, %添加输入数据归一化处理 DataInfo=Unitfcm(data); % Main loop 主要循环 for i = 1:max_iter, %在第k步循环中改变聚类中心ceneter,和分配函数U的隶属度值; [U, center, obj_fcn(i)] = stepfcm(DataInfo, U, cluster_n, expo); if display, fprintf('FCM:Iteration count = %d, obj. fcn = %f\n', i, obj_fcn(i)); end % 终止条件判别 if i > 1, if abs(obj_fcn(i) - obj_fcn(i-1)) < min_impro, break; end, end end iter_n = i; % 实际迭代次数 obj_fcn(iter_n+1:max_iter) = [];
OK,结束了,但愿能对减少大家的工作量带来帮助。