K-均值聚类算法

前些日子帮别人做了些作业题,顺便复习一下模式识别,话说也幸亏此次作业,自己第一次实现算法,话不多说,代码奉上:

#include<cstdio>
#include<time.h>
#include<random>
#include<vector>
#include<limits>
#define Num 150												//元素个数
#define Dim 4												//元素维数
#define K 3												//分类个数
using namespace std;

double Data[Num][Dim]={0};										//用来存储150个4维向量
double Dis[Num][K]={0};											//用来存储各元素到聚类中心的距离
vector<vector<int>>Cluster;										//用来记录各元素所属的类别
double Center[K][Dim]={0.0};										//用来存储聚类中心
/************************读取txt文件中数据*********************/
void GetTest()
{
	FILE* fin;
	fin=fopen("Iris.txt","r");
	if(!fin)
		printf("Fail to open the file");						//判断是否打开文件成功
	for(int i=0;i<Num;++i)
		for(int j=0; j<Dim;++j)
			fscanf(fin,"%lf",&Data[i][j]);						//读取数据
	fclose(fin);
}
/************************初始化聚类中心************************/
void InitCenter()
{
	srand((unsigned) time(NULL));
	int centerIndex[3]={0};
	for(int i=0;i<K;++i)
	{
		bool repeated =false;
		int j=0;
		do{
			j=rand()%Num;
			for(int l=0;l<i;++l)
			{
				if(centerIndex[l]==j)
				{
					repeated=true;
					break;
				}
			}
		}while(repeated);//保证各初始聚类中心不一样
		centerIndex[i]=j;
	}
	for(int i=0;i<K;++i)
	{
		int k=centerIndex[i];
		for(int j=0;j<Dim;++j)
			Center[i][j]=Data[k][j];
	}
}
/************************计算各元素到聚类中心的欧氏距离********/
void EulDis()
{
	for(int i=0;i<Num;++i)
	{
		for(int j=0;j<K;++j)
		{
			double dis=0.0;
			for(int l=0;l<Dim;++l)
				dis+=pow(double(Data[i][l]-Center[j][l]),int(2));
			Dis[i][j]=sqrt(dis);
		}
	}
}
/***************返回距当前元素最近的聚类中心index**************/
int MinIndex(int row)
{
	double min=2147483640.0;
	int index=0;
	for(int i=0;i<K;++i)
		if(Dis[row][i]<min)
		{
			min=Dis[row][i];
			index=i;
		}
	return index;
}
/************************计算新的聚类中心*********************/
void ReCompuCenter()
{
	double sum[K][Dim]={0.0};
	int count[K]={0};
	for(int i=0;i<Num;++i)
	{
		int index=MinIndex(i);
		for(int j=0; j<Dim;++j)
			sum[index][j]+=Data[i][j];
		count[index]+=1;
	}
	for(int i=0;i<K;++i)
		for(int j=0;j<Dim;++j)
			Center[i][j]=sum[i][j]/count[i];
}
/*********************输出最终聚类结果**********************/
void Print()
{
	Cluster.clear();
	for(int i=0;i<K;++i)
	{
		vector<int> a;
		Cluster.push_back(a);
	}
	int i1=0,i2=0,i3=0;
	for(int i=0;i<Num;++i)
	{
		int index=MinIndex(i);
		Cluster[index].push_back(i);
	}
	for(int i=0;i<K;++i)
	{
		printf("第%d类:\n",i+1);
		printf("聚类中心为:%lf %lf %lf %lf\n",Center[i][0],Center[i][1],Center[i][2],Center[i][3]);
		for(vector<int>::iterator ite=Cluster[i].begin();ite!=Cluster[i].end();++ite)
			printf("%d ",*ite);
		printf("\n");
	}
}
/************************main函数****************************/
int main()
{
	GetTest();
	InitCenter();
	bool NotDone=true;
	double PreCenter[K][Dim]={0.0};//记录之前的聚类中心
	int IterTimes=0;
	while(NotDone)
	{
		NotDone=false;
		IterTimes++;
		EulDis();
		for(int i=0;i<K;++i)
			for(int j=0;j<Dim;++j)
				PreCenter[i][j]=Center[i][j];
		ReCompuCenter();
		for(int i=0;i<K;++i)
		{
			for(int j=0;j<Dim;++j)
				if(PreCenter[i][j]-Center[i][j]>1e-8)
				{
					NotDone=true;
					break;
				}
			if(NotDone==true)
				break;
		}
	}
	printf("共迭代%d次\n",IterTimes);
	Print();
	return 0;
}
当然不同的样本,样本个数,特征数量都不相同,可以自己相应修改,最后的输出函数也可以自己修改的,O(∩_∩)O~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值