K-means聚类实验/Python

一、实验目标:

对cluster.dat中的二维点对进行聚类分析。

二、本次实验方法:

采用K-Means模型进行聚类,将聚类结果图示表达,用颜色区分不同簇的点,分析不同K值下的聚类结果,使用的编程语言为Python。

三、算法原理:

K-Means算法的目标是将原始数据分为K簇,每一簇都有一个中心点,这也是簇中点的均值点,簇中所有的点到所属的簇的中心点的距离都比到其他簇的中心点更近。

四、算法流程:
  1. 随机确定K个点作为质心(在本次实验中,我在数据中使用随机数选择了K个点作为初始质心)
  2. 找到离每个点最近的质心,将这个点分配到这个质心代表的簇里
  3. 再对每个簇进行计算,以点簇的均值点作为新的质心
  4. 如果新的质心和上一轮的不一样,则迭代进行2-3步骤,直到质心位置稳定
五、不同K值下的聚类结果图示:

聚类开始之前原始数据点:
在这里插入图片描述

K=3时:
在这里插入图片描述
在这里插入图片描述

K=4时:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

K=5时:
在这里插入图片描述
在这里插入图片描述

K=6时:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

六、测试方法:

使用量化的误差指标:误差平方和SSE(sum of the squared errors),来评价算法的结果。
在这里插入图片描述

使用此函数来计算结果的SSE。
每次K取不同值时,记录5次数据集和训练集的SSE,取平均值,可以得到如下表格。
在这里插入图片描述

画出图示:

训练集:
在这里插入图片描述
测试集:

在这里插入图片描述

由左至右k=2,3,4,5,6,7,SSE会随着K的变大而减小。可以看出在k=4之后,随着k的增大,SSE的下降减缓了,再增加K得到的聚合回报变小,也就是k=4应该为最佳聚类数。

结合上一部分的图像,可以看到当K=3时,数据点的分类其实是不充分的。而当K=5时,数据点上方十分密集的数据点却经常因为右上角噪音点的影响被从中间分成两簇,这是不符合实际情况的,当k>5时,聚类结果就会显得愈加杂乱。结合图像,K=4仍然是最好的选择。
下图是我相对满意的聚类结果图:
在这里插入图片描述

七、实验总结

K-Means是机器学习聚类中的经典算法。虽然它有一些缺点:依赖于原始质心、会陷入局部最优的情况、对噪音和异常点比较敏感,但在我看来,它的可解释程度、通俗易懂程度,是十分出色的,整个算法没有复杂的点。这次实验对我的挑战性在于编程语言:Python。在这之前我对Python是陌生的,在断断续续编码的几天过程中,边完善算法,边学习编程语言,虽然也有大大小小的问题,最后都成功解决了,能打印出聚类的结果图的时候还是很有满足感得。聚类是个很有趣的问题!

八、源代码
import numpy as np
import math
import pandas as pd
from numpy import *
import matplotlib.pyplot as plt
import random
import operator
plt.rcParams["font.sans-serif"]=["SimHei"]
plt.rcParams["axes.unicode_minus"]=False 

fo=open("cluster.dat")
DataSet=[]
while True:
    line=fo.readline()
    if not line:
        break            #读取结束就跳出
    lines=line.split()
    for i in lines:
        DataSet.append(float(i)
  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
点云k-means聚类是一种应用于点云数据的聚类算法,可以通过将点云数据划分为不同的簇来实现数据的分类和分割。PCL(点云库)是一个用于点云处理的开源库,其中包含了用于点云k-means聚类Python模块。 点云k-means聚类的过程如下:首先,选取合适数量(k)的初始聚类中心点。然后,将每个点与聚类中心点进行距离计算,并将其分配给离其最近的中心点所对应的聚类。接着,根据每个聚类中的点重新计算其聚类中心点。重复以上两个步骤,直到聚类中心点的位置不再变化或者达到预定的迭代次数为止。 使用PCL库的Python模块,在进行点云k-means聚类时,首先需要导入相关的模块和数据。然后,通过调用PCL库中的聚类算法函数,传入点云数据和所需的聚类数量k。接着,可以设置聚类算法的参数,如迭代次数、收敛阈值等。最后,调用聚类算法函数来执行点云k-means聚类,并获取聚类的结果。 在得到点云k-means聚类的结果后,可以对每个聚类进行进一步的操作,如可视化显示每个聚类的点云数据、计算每个聚类的质心或其他统计量等。此外,可以根据具体的需求调整聚类算法的参数,以获得更好的聚类效果。 总而言之,点云k-means聚类是一种有效的点云数据处理方法,可通过使用PCL库的Python模块来实现。该方法可以对点云数据进行分类和分割,从而对点云数据进行更深入的分析和应用。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值