Hello大家好,今天为大家送上Kmeans聚类算法的案例,图片处理与NBA群员信息的分析。
Kmeans算法是非监督的学习里面的一个经典算法,也是一个典型的基于距离的非层次聚类算法,在小化误差函数的基础上,将数据划分为预定的类数K(这个k我们稍后说),采用距离作为相似性的评价指标,及认为俩个对象的距离越近,其相似度越高。
可能大家有点懵,这个Kmeans到底是什么呢,其实他就是我们的扎堆算法(个人定义的),为啥这么说呢,大家都知道人以类似物以群分,在我们拿到一堆数据集后这堆数据集没有我们所需要的标签,这时候我们就需要将相似度高的分为一组(专业术语称之为一簇),而分为多少簇呢就是这个K;比如上学时老师根据学习成绩和平时表现将学生分为学霸,学酥,学渣等;在比如利用国家个城市的经济,医疗等数据将其划分为几种不同的贫富等级(如发达,欠发达,贫困,特贫困等)
当然,聚类算法不仅仅可以将数据实现分割,还可以用于异常点的监控,所谓的异常点就是远离任何簇的样本,而这些样本往往就是需要关注的点,例如信用卡交易中的监控。
Kmeans算法其实就是这么简单,并没有太多的复杂的数学公式,接下来我们看看该算法的集体过程:
注意:聚类的结果可能依赖于初始聚类中心的随机选择,可能使得结果严重偏离全局最优分类。在实际应用中为了得到较好的结果,通常以不同的初始聚类中心多次运行Kmeans算法。
下图为Kmeans聚类示意图: