K-means入门【c/c++实现】

这两天看了一些和K-means有关的文章,写一篇入门学习总结。

K-means是一种ML的无监督学习,也是一种聚类算法,和分类算法不同的是其没有特定的界限准则,也没有可预知的结果。
分类算法:肿瘤肿块的大小和良恶性之间的关系,新闻或者邮件进行区分是否垃圾等,通过一些数据的特征,通过学习计算回归方程,就会形成一些判别模式;
聚类算法:目的也是把数据分类,但是事先我是不知道根据什么特征去分的,完全是算法自己来判断各条数据之间的相似性,相似的就放在一起。在聚类的结论出来之前,我完全不知道每一类有什么特点,一定要根据聚类的结果通过人的经验来分析,看看聚成的这一类大概有什么特点。

聚类算法有很多种,K-Means是聚类算法中的最常用的一种。该算法最大的特点是好理解,运算速度快,但是只能应用于连续型的数据,并且一定要在聚类前需要手动指定要分成几类。
它有几个一般步骤:
1:输入n维的数据集;
2:选取k个数据点作为初始质心(可全随机,也可半随机:先选取一个全局质心,然后距离全局质心最远的k个点,作为k个初始质心,下面的代码实现是采取半随机方式);
3:根据k个初始质心,通过计算每点到每个质心的距离(距离的方式),对于每个点而言,属于当下距离最近的那个质心的簇(也就是一个群体),到最后每个点都会找到自己所在的群;
4:通过新的群,重新计算新的质心(对这个群内的所有点,求x和y…n维坐标的均值:(x1 + x2 +..) / n, (y1 + y2 +..) / n);
5:因为整个过程是收敛的,最后可以通过sse(误差平方和)来结束聚类过程。如果说变化比较小,也就是质心位置的移动几乎不发生改变了。如果说变化比较大,再次进行3步骤,不断迭代;

其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢?
总结为下:
(1)对于离群点和孤立点敏感;
(2)k值选择;
(3)初始聚类中心的选择;
(4)只能发现球状簇。

C/C++实现代码(以二维为例):

#include <bits/stdc++.h>
using namespace std;

const int MAXN = 1e4;
vector<int> V[MAXN];

struct node { //二维点集 
    double x;
    double y;
}s[MAXN], mean[MAXN];

struct Node {
    double dis;
    int id; 
}ss[MAXN];

bool cmp(Node a, Node b) {
    return a.dis > b.dis;
}

//欧式距离
inline double Eul_dis(double x1, double y1, double x2, double y2) { 
    return sqrt((x1 - x2) * (x1 - x2) + (y1 - y2) * (y1 - y2));
}

//初始k个质心
inline void Get_centroid(int n, int &k) {  
    double init_x = 0.0, init_y = 0.0;
    for(int i = 1; i <= n; ++i) {
        printf("请输入第%d个数据坐标:", i); 
        scanf("%lf %lf", &s[i].x, &s[i].y);
        init_x += s[i].x;
        init_y += s[i].y;
    }
    init_x /= (double)n;
    init_y /= (double)n;        //选择一个初始全局质心
    printf("初始一个质心:(%.2lf, %.2lf)\n", init_x, init_y);
    for(int i = 1; i <= n; ++i) {
        ss[i].dis = Eul_dis(init_x, init_y, s[i].x, s[i].y);
        ss[i].id = i;
    }
    sort(ss + 1, ss + n + 1, cmp); //选择距离初始全局质心最远的k个点,作为初始的k个质心
    printf("请输入您想收敛的数据群个数:");
    scanf("%d", &k); //k个质心 
    for(int i = 1; i <= k; ++i) {
        int cnt = ss[i].id;
        mean[i].x = s[cnt].x;
        mean[i].y = s[cnt].y;
    }
}

//迭代更新质心
inline void K_means(int n, int k) {  
    double max_dis = 0.0, limit_dis = 0.05; 
    do {    //我用的质心最大移动距离作为收敛条件,当然也可以用其他方法 
        for(int i = 1; i <= k; ++i) {
            V[i].clear();
        }
        for(int i = 1; i <= n; ++i) { //枚举数据点和各个质心 
            double dis = -1.0;
            int cnt;
            for(int j = 1; j <= k; ++j) {
                double ans = Eul_dis(s[i].x, s[i].y, mean[j].x, mean[j].y);
                if(ans > dis) {
                    dis = ans;
                    cnt = j;
                }
            }
            V[cnt].push_back(i); //使数据点对应其质心
        }
        for(int i = 1; i <= k; ++i) {
            double sum_x = 0.0, sum_y = 0.0;
            for(int j = 0; j < V[i].size(); ++j) {
                int cnt = V[i][j];
                sum_x += s[cnt].x;
                sum_y += s[cnt].y;
            }
            double ans1 = sum_x / (double)V[i].size();
            double ans2 = sum_y / (double)V[i].size();
            max_dis = min(max_dis, Eul_dis(mean[i].x, mean[i].y, ans1, ans2));
            mean[i].x = ans1; //更新质心坐标
            mean[i].y = ans2;
        }
    }while(max_dis > limit_dis);  
} 

//打印结果 
inline void Print_node(int n, int k) {
    for(int i = 1; i <= k; ++i) {
        printf("\n\n\n");
        printf("第%d个簇的质心坐标:(%.2lf, %.2lf)\n", i, mean[i].x, mean[i].y);
        printf("第%d个簇的数据个数:%d\n", i, V[i].size());
        for(int j = 0; j < V[i].size(); ++j) {
            int cnt = V[i][j];
            printf("(%.2lf, %.2lf)\n", s[cnt].x, s[cnt].y);
        }
    }
}

int main() {
    int n, k;
    printf("请输入数据目标个数:"); 
    scanf("%d", &n);    //n个二维坐标点
    Get_centroid(n, k); //得到初始的k个质心 
    K_means(n, k);      //K-means迭代过程 
    Print_node(n, k);   //输出结果 
    return 0;
}

ps:优化及空聚类等其他内容后续补充。。。

推荐博文:
基本Kmeans算法介绍及其实现
聚类、K-Means、例子、细节

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值