K-means入门【c/c++实现】

最新推荐文章于 2023-09-18 10:22:40 发布

UCAS王小二

最新推荐文章于 2023-09-18 10:22:40 发布

阅读量1.4k

点赞数 2

分类专栏：课程学习

本文链接：https://blog.csdn.net/qq_36368339/article/details/79407130

版权

课程学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这两天看了一些和K-means有关的文章，写一篇入门学习总结。

K-means是一种ML的无监督学习，也是一种聚类算法，和分类算法不同的是其没有特定的界限准则，也没有可预知的结果。
分类算法：肿瘤肿块的大小和良恶性之间的关系，新闻或者邮件进行区分是否垃圾等，通过一些数据的特征，通过学习计算回归方程，就会形成一些判别模式；
聚类算法：目的也是把数据分类，但是事先我是不知道根据什么特征去分的，完全是算法自己来判断各条数据之间的相似性，相似的就放在一起。在聚类的结论出来之前，我完全不知道每一类有什么特点，一定要根据聚类的结果通过人的经验来分析，看看聚成的这一类大概有什么特点。

聚类算法有很多种，K-Means是聚类算法中的最常用的一种。该算法最大的特点是好理解，运算速度快，但是只能应用于连续型的数据，并且一定要在聚类前需要手动指定要分成几类。
它有几个一般步骤：
1：输入n维的数据集；
2：选取k个数据点作为初始质心(可全随机，也可半随机：先选取一个全局质心，然后距离全局质心最远的k个点，作为k个初始质心，下面的代码实现是采取半随机方式)；
3：根据k个初始质心，通过计算每点到每个质心的距离(距离的方式)，对于每个点而言，属于当下距离最近的那个质心的簇(也就是一个群体)，到最后每个点都会找到自己所在的群；
4：通过新的群，重新计算新的质心(对这个群内的所有点，求x和y…n维坐标的均值：(x1 + x2 +..) / n， (y1 + y2 +..) / n)；
5：因为整个过程是收敛的，最后可以通过sse(误差平方和)来结束聚类过程。如果说变化比较小，也就是质心位置的移动几乎不发生改变了。如果说变化比较大，再次进行3步骤，不断迭代；

其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢?
总结为下：
(1)对于离群点和孤立点敏感；
(2)k值选择;
(3)初始聚类中心的选择；
(4)只能发现球状簇。

C/C++实现代码(以二维为例)：

#include <bits/stdc++.h>
using namespace std;

const int MAXN = 1e4;
vector<int> V[MAXN];

struct node { //二维点集 
    double x;
    double y;
}s[MAXN], mean[MAXN];

struct Node {
    double dis;
    int id; 
}ss[MAXN];

bool cmp(Node a, Node b) {
    return a.dis > b.dis;
}

//欧式距离
inline double Eul_dis(double x1, double y1, double x2, double y2) { 
    return sqrt((x1 - x2) * (x1 - x2) + (y1 - y2) * (y1 - y2));
}

//初始k个质心
inline void Get_centroid(int n, int &k) {  
    double init_x = 0.0, init_y = 0.0;
    for(int i = 1; i <= n; ++i) {
        printf("请输入第%d个数据坐标：", i); 
        scanf("%lf %lf", &s[i].x, &s[i].y);
        init_x += s[i].x;
        init_y += s[i].y;
    }
    init_x /= (double)n;
    init_y /= (double)n;        //选择一个初始全局质心
    printf("初始一个质心：(%.2lf, %.2lf)\n", init_x, init_y);
    for(int i = 1; i <= n; ++i) {
        ss[i].dis = Eul_dis(init_x, init_y, s[i].x, s[i].y);
        ss[i].id = i;
    }
    sort(ss + 1, ss + n + 1, cmp); //选择距离初始全局质心最远的k个点，作为初始的k个质心
    printf("请输入您想收敛的数据群个数：");
    scanf("%d", &k); //k个质心 
    for(int i = 1; i <= k; ++i) {
        int cnt = ss[i].id;
        mean[i].x = s[cnt].x;
        mean[i].y = s[cnt].y;
    }
}

//迭代更新质心
inline void K_means(int n, int k) {  
    double max_dis = 0.0, limit_dis = 0.05; 
    do {    //我用的质心最大移动距离作为收敛条件，当然也可以用其他方法 
        for(int i = 1; i <= k; ++i) {
            V[i].clear();
        }
        for(int i = 1; i <= n; ++i) { //枚举数据点和各个质心 
            double dis = -1.0;
            int cnt;
            for(int j = 1; j <= k; ++j) {
                double ans = Eul_dis(s[i].x, s[i].y, mean[j].x, mean[j].y);
                if(ans > dis) {
                    dis = ans;
                    cnt = j;
                }
            }
            V[cnt].push_back(i); //使数据点对应其质心
        }
        for(int i = 1; i <= k; ++i) {
            double sum_x = 0.0, sum_y = 0.0;
            for(int j = 0; j < V[i].size(); ++j) {
                int cnt = V[i][j];
                sum_x += s[cnt].x;
                sum_y += s[cnt].y;
            }
            double ans1 = sum_x / (double)V[i].size();
            double ans2 = sum_y / (double)V[i].size();
            max_dis = min(max_dis, Eul_dis(mean[i].x, mean[i].y, ans1, ans2));
            mean[i].x = ans1; //更新质心坐标
            mean[i].y = ans2;
        }
    }while(max_dis > limit_dis);  
} 

//打印结果 
inline void Print_node(int n, int k) {
    for(int i = 1; i <= k; ++i) {
        printf("\n\n\n");
        printf("第%d个簇的质心坐标：(%.2lf, %.2lf)\n", i, mean[i].x, mean[i].y);
        printf("第%d个簇的数据个数：%d\n", i, V[i].size());
        for(int j = 0; j < V[i].size(); ++j) {
            int cnt = V[i][j];
            printf("(%.2lf, %.2lf)\n", s[cnt].x, s[cnt].y);
        }
    }
}

int main() {
    int n, k;
    printf("请输入数据目标个数："); 
    scanf("%d", &n);    //n个二维坐标点
    Get_centroid(n, k); //得到初始的k个质心 
    K_means(n, k);      //K-means迭代过程 
    Print_node(n, k);   //输出结果 
    return 0;
}

ps:优化及空聚类等其他内容后续补充。。。

UCAS王小二

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
K-means入门【c/c++实现】

这两天看了一些和K-means有关的文章，写一篇入门学习总结。K-means是一种ML的无监督学习，也是一种聚类算法，和分类算法不同的是其没有特定的界限准则，也没有可预知的结果。分类算法：肿瘤肿块的大小和良恶性之间的关系，新闻或者邮件进行区分是否垃圾等，通过一些数据的特征，通过学习计算回归方程，就会形成一些判别模式；聚类算法：目的也是把数据分类，但是事先我是不知道根据什么特征去分的，完...
复制链接

扫一扫