作者:张江 | 来源:ATYUN
在本文中,我们将讨论K-Means算法,它是一种基于聚类的无监督机器学习算法。此外,我们还将讨论如何使用K-Means来压缩图像。
在深入研究K-Means算法的细节之前,让我们先了解一下无监督的机器学习是什么,以及它的实际应用是什么。
与有标记数据的监督机器学习不同,,无监督机器学习处理未标记数据的问题。如果你熟悉经典的有监督机器学习,你可能会问,如何从未标记的数据集中学习任何有用的东西?成本函数是否不需要输出标签来计算算法的执行方式?
无监督机器学习(更具体地说是K-Means),是通过将相似的数据点聚集在高维空间中来实现的。
在左侧,数据点最初是分散的。假设我们不知道每个数据点是如何相关的,但它们不失普遍性。换句话说,仅仅通过查看图表,我们无法确定某某点是否相似,只是因为它们彼此靠近(同样,想象数据点是高维的,即大于3维)。
聚类的作用是,它将彼此更接近的数据点分组到一个聚类中,而不管维度的数量,从而表明属于单个聚类的数据点属于特定类。
这个简单的想法有可能解决我们社会面临的许多问题:
市场细分:根据不同的特征将潜在客户的市场划分或细分的过程。创建的细分市场由消费者组成,消费者将对营销策略做出类似响应,并且共享诸如类似兴趣,需求或位置等特征。
社交网络分析:分析具有相似品味的社交媒体平台的用户的过程。在识别具有相似品味的用户之后,运行有针对性的广告变得更容易。
天文数据分析:分析未标记的天文数据以找出隐藏模式的过程。