mj 是第j个类的质心
如果想要设计一个算法求得全局最优解,就必须完成C(n,k) 次聚类,找出其中使得E最小的聚类结果。
而K均值聚类则是一个求得局部最优解的算法。
K均值聚类算法描述
(1)从n个样本中选择k个质心
(2)将数据集当中每一个xi分配到与之相距最近的质心mj代表的聚类中
(3)分配后,质心会发生变化,计算新质心以及E值
(4)重复(2)和(3)直到达到最大迭代次数或新计算的E值与上一次迭代得到的E值之间的差别小于一个给定的阈值
K均值聚类初始质心的选择
k-means 算法的工作过程如下。首先从n个数据对象任意选择 k 个对象作为初始聚类中心,对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值),并且不断重复这一过程直到标准测度函数开始收敛为止
下面的例子很容易理解哦~来自百度知道。。。。
在程序前这样输入15个点int x[15][3] = {{ 3, 1, 0}, { 3, 2, 0}, { 2, 2, 0}, { 3, 3, 0}, { 2, 3, 0}, { 8, 8, 0},{ 8, 9, 0}, { 9, 8, 0}, { 9, 7, 0},{ 9, 9, 0}, { 16, 5, 0}, { 16, 4, 0},{ 15, 5, 0}, { 15, 6, 0}, { 16, 6, 0}} (z坐标为0,相当于二维坐标),选其中任意3个点z1、z2、z3作为基本点,比较其余12点与这3点距离,与哪个点近就和哪个点划分在一起,例如某一点到z2的距离小于到z1、z3距离,它就和z2算是一个类cluster2,这样找出12个点分别属于那个cluster,划分好所有点之后一共分3个cluster,求出各个cluster的所拥有点的中心z1’、z2’、z3’,然后再以这三个新中心点求出原15个点到这3个点距离并划分成新的3个cluster,然后再求新的cluster各点的中心,再求出15个点分别属于哪个新的cluster,然后一次循环下去,直到得到的中心值不变,printf出三个不变的中心值坐标,15点分别属于哪个中心所在的cluster。
程序如下:
// K_means.cpp : 定义控制台应用程序的入口点。
//
#include "stdafx.h"
#include<stdio.h>
#include<math.h>
int x[15][3]={{3,1,0},{3,2,0},{2,2,0},{3,3,0},{2,3,0},{8,8,0},{8,9,0},{9,8,0},{9,7,0},{9,9,0},{16,5,0},{16,4,0},{15,5,0},{15,6,0},{16,6,0}};
double oldcentral[3][3];//旧的中心点的坐标
double newcentral[3][3];//计算距离,分类后求平均值得到的新的中心点的坐标
int clas[15];//15个点各属于哪个类,类的编号从0开始 :0, 1, 2
int clsno; //用来记录与当前点最近的中心点的编号:0, 1, 2
int minDist(double x,double y,double z) //计算三个数的最小值,返回其序号。
{
if(x<=y&&x<=z)
return 0;
if(y<x&&y<=z)
return 1;
if(z<x&&z<y)
return 2;
}
double distA(int i,int j)//计算两个点的距离,i和j分别是数组x和newcentral中的序号 ,即i是指当前点,j表示中心点。返回当前点到中心点的距离
{
double distx,disty,distz,dist;
distx=(double)x[i][0]-(double)newcentral[j][0];
disty=(double)x[i][1]-(double)newcentral[j][1];
distz=(double)x[i][2]-(double)newcentral[j][2];
dist=sqrt(distx*distx+disty*disty+distz*distz);
return dist;
}
void main()
{
int count[3];//记录每一类的个数;
int i,j;
double dist[3];//求坐标点距离3个中心点距离时用到的变量,记录当前点到中心点(编号为9 1 2)的距离
double cenL,cenLx,cenLy,cenLz;//最后求新旧中心点距离的时候用到的变量
printf("The 15 points are:\n");//把所有点的坐标打印一遍,非必要语句
for(i=0;i<15;i++)
printf("%d %d %d \n",x[i][0],x[i][1],x[i][2]);
for(i=0;i<3;i++)//新旧中心点赋初值。
for(j=0;j<3;j++)
{
newcentral[i][j]=(double)x[i][j];
oldcentral[i][j]=-9999.0;
}
for(i=0;i<3;i++)//头3个点作为初始的中心点。
{
clas[i]=i; //假设第零个点属于第0类,第一个点属于第1类,···
}
while(1)//无限循环,退出条件是新旧中心点的距离小于0.005.
{
for(i=0;i<3;i++)//记录每一类的个数的数组赋初值
count[i]=0;
for(i=0;i<15;i++)//对15个点分别计算到中心点的距离。
{
for(j=0;j<3;j++)
dist[j]=distA(i,j);
clsno=minDist(dist[0],dist[1],dist[2]);//求距离最小值,返回距离最小的对应中心点坐标。
clas[i]=clsno;//将此点归到距离最小的那一类。
count[clsno]++; //这一类(编号为clsno)数目加1
}
for(i=0;i<3;i++)//新中心点的坐标拷贝到旧中心点数组中,因新中心点需重新计算。
for(j=0;j<3;j++)
oldcentral[i][j]=newcentral[i][j];
for(i=0;i<3;i++)//对新中心点坐标赋初值,进行下面的计算。
for(j=0;j<3;j++)
newcentral[i][j]=0.0;
for(i=0;i<15;i++)//对每一类的坐标点计算其坐标之和。
for(j=0;j<3;j++)
newcentral[clas[i]][j] +=x[i][j];
for(i=0;i<3;i++)//坐标之和除以count数组元素,即得中心点坐标
for(j=0;j<3;j++)
newcentral[i][j]=newcentral[i][j]/count[i];
int flag=0;//标志
for(i=0;i<3;i++)//求新旧中心点的距离
{
cenLx=newcentral[i][0]-oldcentral[i][0];
cenLy=newcentral[i][1]-oldcentral[i][1];
cenLz=newcentral[i][2]-oldcentral[i][2];
cenL=sqrt(cenLx*cenLx+cenLy*cenLy+cenLz*cenLz);
if(cenL>0.005)//只要有一个距离过大,表明未收敛,重新开始循环
flag=1;
}
if(flag!=1)//只有当标志未被设置,退出while循环。
break;
}
for(i=0;i<15;i++) //打印15个点各自所属的类。
{
printf("point %d(%d,%d,%d) belongs to class %d\n",i,x[i][0],x[i][1],x[i][2],clas[i]);
}
getchar();
}
运行结果如下: