前些日子帮别人做了些作业题,顺便复习一下模式识别,话说也幸亏此次作业,自己第一次实现算法,话不多说,代码奉上:
#include<cstdio>
#include<time.h>
#include<random>
#include<vector>
#include<limits>
#define Num 150 //元素个数
#define Dim 4 //元素维数
#define K 3 //分类个数
using namespace std;
double Data[Num][Dim]={0}; //用来存储150个4维向量
double Dis[Num][K]={0}; //用来存储各元素到聚类中心的距离
vector<vector<int>>Cluster; //用来记录各元素所属的类别
double Center[K][Dim]={0.0}; //用来存储聚类中心
/************************读取txt文件中数据*********************/
void GetTest()
{
FILE* fin;
fin=fopen("Iris.txt","r");
if(!fin)
printf("Fail to open the file"); //判断是否打开文件成功
for(int i=0;i<Num;++i)
for(int j=0; j<Dim;++j)
fscanf(fin,"%lf",&Data[i][j]); //读取数据
fclose(fin);
}
/************************初始化聚类中心************************/
void InitCenter()
{
srand((unsigned) time(NULL));
int centerIndex[3]={0};
for(int i=0;i<K;++i)
{
bool repeated =false;
int j=0;
do{
j=rand()%Num;
for(int l=0;l<i;++l)
{
if(centerIndex[l]==j)
{
repeated=true;
break;
}
}
}while(repeated);//保证各初始聚类中心不一样
centerIndex[i]=j;
}
for(int i=0;i<K;++i)
{
int k=centerIndex[i];
for(int j=0;j<Dim;++j)
Center[i][j]=Data[k][j];
}
}
/************************计算各元素到聚类中心的欧氏距离********/
void EulDis()
{
for(int i=0;i<Num;++i)
{
for(int j=0;j<K;++j)
{
double dis=0.0;
for(int l=0;l<Dim;++l)
dis+=pow(double(Data[i][l]-Center[j][l]),int(2));
Dis[i][j]=sqrt(dis);
}
}
}
/***************返回距当前元素最近的聚类中心index**************/
int MinIndex(int row)
{
double min=2147483640.0;
int index=0;
for(int i=0;i<K;++i)
if(Dis[row][i]<min)
{
min=Dis[row][i];
index=i;
}
return index;
}
/************************计算新的聚类中心*********************/
void ReCompuCenter()
{
double sum[K][Dim]={0.0};
int count[K]={0};
for(int i=0;i<Num;++i)
{
int index=MinIndex(i);
for(int j=0; j<Dim;++j)
sum[index][j]+=Data[i][j];
count[index]+=1;
}
for(int i=0;i<K;++i)
for(int j=0;j<Dim;++j)
Center[i][j]=sum[i][j]/count[i];
}
/*********************输出最终聚类结果**********************/
void Print()
{
Cluster.clear();
for(int i=0;i<K;++i)
{
vector<int> a;
Cluster.push_back(a);
}
int i1=0,i2=0,i3=0;
for(int i=0;i<Num;++i)
{
int index=MinIndex(i);
Cluster[index].push_back(i);
}
for(int i=0;i<K;++i)
{
printf("第%d类:\n",i+1);
printf("聚类中心为:%lf %lf %lf %lf\n",Center[i][0],Center[i][1],Center[i][2],Center[i][3]);
for(vector<int>::iterator ite=Cluster[i].begin();ite!=Cluster[i].end();++ite)
printf("%d ",*ite);
printf("\n");
}
}
/************************main函数****************************/
int main()
{
GetTest();
InitCenter();
bool NotDone=true;
double PreCenter[K][Dim]={0.0};//记录之前的聚类中心
int IterTimes=0;
while(NotDone)
{
NotDone=false;
IterTimes++;
EulDis();
for(int i=0;i<K;++i)
for(int j=0;j<Dim;++j)
PreCenter[i][j]=Center[i][j];
ReCompuCenter();
for(int i=0;i<K;++i)
{
for(int j=0;j<Dim;++j)
if(PreCenter[i][j]-Center[i][j]>1e-8)
{
NotDone=true;
break;
}
if(NotDone==true)
break;
}
}
printf("共迭代%d次\n",IterTimes);
Print();
return 0;
}
当然不同的样本,样本个数,特征数量都不相同,可以自己相应修改,最后的输出函数也可以自己修改的,O(∩_∩)O~