Kmeans聚类算法原理与实现

Kmeans聚类算法

1 Kmeans聚类算法的基本原理

K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。

假设要把样本集分为k个类别,算法描述如下:

  (1)适当选择k个类的初始中心,最初一般为随机选取;

  (2)在每次迭代中,对任意一个样本,分别求其到k个中心的欧式距离,将该样本归到距离最短的中心所在的类;

  (3)利用均值方法更新该k个类的中心的值;

  (4)对于所有的k个聚类中心,重复(2)(3),类的中心值的移动距离满足一定条件时,则迭代结束,完成分类。

Kmeans聚类算法原理简单,效果也依赖于k值和类中初始点的选择。

2 算法结构与实现方法

Kmeans算法相对比较简单,本次算法实现采用C++语言,作为面向对象设计语言,为保证其良好的封装性以及代码重用性。软件包含三个部分,即kmeans.hkmeans.cppmain.cpp

kmeans.h中,首先定义一个类,class KMeans,由于本算法实现需要对外部数据进行读取和存储,一次定义了一个容器Vector,其中数据类型为结构体st_point,包含三维点坐标以及一个char型的所属类的ID。其次为函数的声明。

4.1 程序基本机构与对应函数

kmeans.cpp中具体给出了不同功能的公有函数,如图_1中所示,函数比较细化,便于后期应用的扩展,比较具体是聚类函数:cluster,其中严格根据kmeans基本原理,聚类的相似度选用的是最简单的欧式距离,而迭代的结束判定条件选用两次中心值之间的偏差是否大于给定Dist_near_zero值。具体参见程序源代码。

3 数据描述

本次算法实验采用数据为三维点云数据,类似于实验室中三维激光扫描仪器所采得数据,形式上更为简单,整齐有规律,在cloudcompare中显示出来,如下图:

4.2 数据原始图

数据为三维坐标系下的三个点云集,分别为球体,园面以及正方体,而test.txt文件中是一组三维的点集,是混乱的,聚类算法要做的便是将其中分类存储起来。很自然的,聚类中K值选择了3

在软件实现时,建立了一个含有结构体类型的容器,对原始数据进行读取。

typedef struct st_point 

{ st_pointxyz pnt; //st_pointxyz 为三维点结构类型数据 stru st_pointxyz 

int groupID; 

    st_point () { } 

    st_point(st_pointxyz &p, int id) 

    {pnt = p; 

     groupID = id; 

    } 

}st_point; 

该数据结构类型中包含三维点数据以及所分类的ID,数据容器为vector<st_point>

4 算法描述与源码分析

本节重点分析项目中culster聚类函数的具体代码,由于C++语言较适用于大型程序编写,本算法又相对简单,因此未免冗长,具体完整程序见项目源程序。下面只分析Kmeans原理中(2)(3)步骤的程序实现。

如下面程序源代码:

bool KMeans::Cluster()
 {
    std::vector<st_pointxyz> v_center(mv_center.size());
 
    do
     {
        for (int i = 0, pntCount = mv_pntcloud.size(); i < pntCount; ++i)
         {
            double min_dist = DBL_MAX;
             int pnt_grp = 0;
             for (int j = 0; j < m_k; ++j)
             {
                 double dist = DistBetweenPoints(mv_pntcloud[i].pnt, mv_center[j]);
                 if (min_dist - dist > 0.000001)
                 {
                     min_dist = dist;
                     pnt_grp = j;
                 }
             }
             m_grp_pntcloud[pnt_grp].push_back(st_point(mv_pntcloud[i].pnt, pnt_grp));
         }
 
         //保存上一次迭代的中心点
         for (size_t i = 0; i < mv_center.size(); ++i)
         {
             v_center[i] = mv_center[i];
         }
 
         if (!UpdateGroupCenter(m_grp_pntcloud, mv_center))
         {
             return false;
         }
         if (!ExistCenterShift(v_center, mv_center))
         {
             break;
         }
         for (int i = 0; i < m_k; ++i){
             m_grp_pntcloud[i].clear();
         }
 
     } while (true);
 
    return true;
 }

5 算法结果分析

原数据文件test.txt中的数据被分为三类,分别存储在文件k_1k_2k_3中,我们对三个聚类后所得数据点云进行颜色添加后显示在cloudcompare上,得下面的显示图:

4.3 Kmeans聚类结果

上图是在给定的初始三个聚类中心点为{ 0, 0, 0 }{ 2.5, 2.5, 2.5 }{ 3, 3, -3 }的情况下得到的结果。这是比较理想的,再看下图:

4.4 改变初始聚类中心后的结果

本结果对应的初始三个中心点为{ 2, 2, 2 }{ -2.5, 2.5, 2.5 }{ 3, -3, -3 },很明显,数据聚类并不理想,这说明K-Means算法一定程度上初始聚类种子点,这个聚类种子点太重要,不同的随机种子点会有得到完全不同的结果。

上面改动了初始点,下面给出当k=4的聚类结果,分别取了两组不同的初始点集:

4.5.1 k=4聚类结果1

4.5.2 k=4聚类结果

由上述聚类结果可知,当k增加时,选取聚类初始点合适,可以得到满意的结果,如5_1所示,与最初结果相比只是将球点云聚类成了两部分,而5_25_1相比结果很不理想,由颜色可以看出,图中只有两类,另外两类是空的,说明k值不当,初始值不当的情况下,聚类是会失败的。

综上实验结果分析可以看出,kmeans聚类算法是一类非常快捷的聚类算法,效果也很明显,局部性较好,容易并行化,对大规模数据集很有意义。但比较依赖于k值得选定与初始聚类中心点的选择,所以该算法比较适合有人工参与的较大型聚类场合。

 

工程源码:http://pan.baidu.com/s/1ntN6Pjb

Kmeans聚类算法 - 开源中国社区 http://www.oschina.net/code/snippet_588162_50491

 

参考文献

[1] Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Applied statistics, 1979: 100-108.

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Kmeans聚类算法是一种基于距离度量的无监督学习算法,其原理是通过不断迭代来寻找数据集中的一组聚类中心,将数据样本划分为不同的簇,满足簇内误差平方和(SSE)最小,实现对数据集的分类和聚合。 具体来说,Kmeans聚类算法的流程如下: 1. 随机初始化k个聚类中心点(k根据实际问题而定),构成初始聚类集合。 2. 对于每个数据点,计算其到所有聚类中心的距离,将其划分到距离最近的聚类类别中。 3. 重新计算每个簇的聚类中心,即簇内所有点的平均值或中心点。 4. 重复第2、3步,直到聚类中心点不再变化或达到预定的迭代次数为止,得到最终的聚类结果。 Kmeans聚类算法的优点是简单有效,可以应用于较大的数据集,但其结果受到初始聚类中心的选择和簇数k的设定影响,容易陷入局部最优解,同时对于异常值和分布不均的数据集效果不佳。因此,在实际应用中,需结合具体问题,对算法进行优化和改进,如加入惩罚项防止过拟合、选取更合适的聚类中心初始化策略等。 ### 回答2: KMeans聚类算法是一种广泛应用于数据分析和机器学习的算法,它的主要思想是将数据样本划分为k个不同的聚类,使得每个聚类内的数据尽可能相似,而不同聚类之间的数据差异最大。 这个算法的具体实现过程是这样的:首先,随机选取k个数据点作为初始聚类中心,将所有数据点分别分配到离它们最近的聚类中心,然后再重新计算每个聚类的中心点,把所有数据点重新分配到最近的中心点,这个过程不断重复直到聚类中心稳定不变或达到预先设定的迭代次数。 在这个过程中,关键的是定义数据点之间的距离度量方法,通常用欧式距离或曼哈顿距离等来表示数据点之间的差异。 KMeans聚类算法的优点是它的计算时间相对较低,可以用于处理大型数据集,而且它是一种无监督学习方法,不需要提前标记数据,能够自动发现潜在的数据结构。但是,它的局限性也很明显,比如对于非凸的聚类集合,它会受到初始聚类中心的影响,容易陷入局部最优解,因此需要采用多次随机初始点的方法来减少这种影响。另外,它的聚类数k需要事先确定,而且对于噪声和异常点的处理较为困难等。 总之,KMeans聚类算法是一种简单而有效的聚类方法,尤其适合处理大型数据集和高维度数据。在实际应用中,可以根据具体问题选择合适的聚类算法来分析数据,以进一步提升数据处理和挖掘的结果。 ### 回答3: K-Means聚类算法是一种非监督学习算法,通过将相似的数据点归为一类,将数据集划分成不同的类别。K-Means算法需要指定聚类的个数k,然后随机选择k个数据点作为初始的聚类中心。 算法步骤如下: 1. 首先随机挑选k个数据点作为初始的聚类中心。 2. 对于每个数据点,计算它与k个聚类中心的距离,将它归为距离最近的那个聚类。 3. 计算每个聚类中所有数据点的平均值,将其作为新的聚类中心。 4. 重复执行步骤2和步骤3,直到聚类中心不再改变或达到最大迭代次数。 5. 最终得到k个聚类,每个聚类包含一组相似的数据点。 K-Means算法的优点是简单易懂、易于实现,适用于处理大量数据的场景,例如:图像聚类、文本聚类、用户行为聚类等。缺点是需要提前选择聚类中心的数量k,并且聚类结果很大程度上取决于初始的聚类中心。 为了解决聚类中心数量选择的问题,一些改进的K-Means算法出现,例如:自适应聚类算法、层次聚类算法、二分K-Means算法等,这些算法在选择聚类中心数量方面更加灵活。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值