Kmeans聚类算法
Kmeans算法首先随机选取K个质心,然后计算每个样本到每个质心的距离,与哪个质心近就属于哪一个簇,利用分好的样本重新计算质心,再重新计算距离形成新的簇,反复执行该过程,知道簇不再发生变化或者达到最大迭代次数。
K值的选取可以采用canopy方法:
(1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。
(2)任取一个样本点p,作为一个Canopy,记为C,从S中移除p。
(3)计算S中所有点到p的距离dist
(4)若dist小于t1,则将相应点归到C,作为弱关联。
(5)若dist小于t2,则将相应点移出S,作为强关联。
(6)重复(2)~(5),直至S为空。
具体代码如下:
#include <iostream>
#include <vector>
#include <math.h>
#include <time.h>
#include <fstream>
using namespace std;
const int k = 3;
double computedistance(vector<double> x, vector<double> central)//一个样本点到一个质心的距离
{
double distance=0;
for (int i = 0; i < x.size();i++)
{
distance += (x[i] - central[i])*(x[i] - central[i]);
}
return sqrt(distance);
}
int belongcluster(vector<double> x, vector<v