K-means算法原理、代码实现，优缺点及改进

最新推荐文章于 2024-06-25 13:31:56 发布

pingzishinee

最新推荐文章于 2024-06-25 13:31:56 发布

阅读量2.9k

点赞数 1

分类专栏：机器学习算法文章标签： k-means 原理优缺点

本文链接：https://blog.csdn.net/u013317445/article/details/87931606

版权

K-means是一种广泛使用的无监督聚类算法，基于距离度量相似性。它通过迭代找到k个簇，每个簇的中心是其成员点的均值。虽然简单快速，但对k值选择、初始中心敏感，并可能受异常点影响。可通过k-means++和二分k-means改进初值选择，或结合离群点检测提高效果。

摘要由CSDN通过智能技术生成

k-Means是一种无监督的聚类算法，实现起来比较简单，聚类效果也不错，因此被广泛应用。

原理

物以类聚，人以群分。
聚类是无监督学习（训练样本的标签信息未知，或者说难以拿到）。
简单地说，就是把相似的物体聚到一个簇。同一簇内相似度尽可能大，不同簇间相似度尽可能低。采用距离度量相似程度。

算法

1、初始化k个中心点，有了k个簇
2、对所有样本，计算每个样本与k个中心点的距离，将各样本划分到距离最近的中心点所在的簇
3、重新计算各簇的中心：为各簇所有点的均值
4、不断迭代2、3，直到各簇不再发生变化或者达到迭代次数

优缺点

优点：
是解决聚类问题的一种经典算法，简单、快速；
对处理大数据集，该算法高效率；
当结果是密集的，它的效果较好。
缺点：
k值选取不好把握；
对初值敏感（初始聚类中心的选择：改进1：k-means++，改进2：二分k-means）；
对噪声和异常点敏感（改进：离群点检测，去掉离群点后再聚类，减少它们对聚类效果的影响）（一个遥远的你影响了一群dog的中心）；
只能收敛到局部最小，不适合于发现非凸形状的簇还有，不能处理大小、密度差别很大的簇（改进：基于密度的聚类：擅于解决不规则形状的聚类问题，能克服基于距离的算法只能发现“类圆形”的聚类的缺点。如，DBSCAN算法）

实现

import numpy as np

#文件解析，将值封装到矩阵(实质是list里每个元素list)里
#dataset文件每行数字以制表符分
def loadDataset(filename):
    data = []
    f = open(filename)
    for line in f:
        line = line.strip().split('\t')
        floatline = map(float