k均值聚类算法属于机器学习的无监督学习类。提供给无监督算法的数据没有标记,即只给出输入变量(x)。
要理解K-means聚类的真正含义,我们可以从单词开始:
- 聚类(Cluster) - 指一组紧密排列或紧密相连的类似事物。
- 均值(Means) - 指数据的平均值
- K - 指聚类的数量。
K-means聚类如何工作?
- 第一步是选择质心数。
如果给出上面的图像并要求决定将数据分成多少个聚类,那么显而易见的答案就是3。但是机器如何通过算法来决定呢?
肘部法则:您可能会想到的最基本的方法是试错法,通常称为肘部法。您可以尝试不同的k值并绘制聚类平方和(wcss)的平均值,即距各自质心相对于k的平均距离。理想的k值位于图的肘部。
2.找到k后,需要定位它们。换句话说,您需要找到k个质心的值。
最简单的方法是随机放置质心,