K-Means聚类是机器学习领域中最强大的聚类算法之一。他的原因比较简单,但得出的结果也非常准确。聚类是理解数据集的非常重要的方式,因此在本文中,我们将讨论什么是聚类,为什么需要聚类以及什么是k-means聚类。
什么是聚类
聚类是根据数据的属性将数据分为两个或更多组的任务,更确切地说,是基于数据中或多或少明显的某些模式。目的是在数据中找到那些模式,以帮助我们确保在给定数据集中某个项目的情况下,我们能够正确地将该项目放置在正确的组中,从而使其与该组中的其他项目相似,但与其他组中的项目不同。这意味着聚类实际上由两部分组成:一个是识别组,另一个是尽可能地将每个项目放置在正确的组中。聚类算法的理想结果是,同一组中的两个项目彼此相似,而不同组中的两个项目则尽可能地不同。

一个真实的例子就是客户细分。作为一家销售各种产品或服务的企业,很难为每个客户找到理想的业务策略。但是我们可以尝试将客户分为几个子组,了解这些客户的共同点,并针对每个组调整我们的业务策略。而向客户提出错误的业务策略可能意味着失去该客户,因此,重要的一点是我们必须实现良好的市场集群。
什么是无监督机器学习
无监督机器学习是一种机器学习算法,试图在没有任何先验知识的情况下推断数据中的模式。与之相反的是有监督的机器学习,这里我们有一个训练集,该算法将尝试通过将输入与预定义的输出进行匹配来查找数据中的模式。
之所以这样说,是因为将无监督机器学习任务聚类。在应用聚类算法时,尽管我们可以设置要标识的类别数量,但我们也不会先验地知道类别。
类别将从分析数据的算法中得出。因此,我们可以将集群称为探索性机器学习任务,因为我们只知道类别的数量,但不知道其属性。然后,我们可以尝试使用不同数量的类别,看看是否可以更好地对数据进行聚类。
然后,我们必须了解我们的集群,这实际上可能是最不同的任务。让我们将示例与客户细分一起重用。假设我们已经运行了聚类算法,并且将客户分为三类。但是那些团体是什么?