聚类K-means
1.概述
决策树、随机森林、逻辑回归等算法与聚类不同,他们虽然有着不同的功能,但却都是属于有监督学习的一部分,也就是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签Y。
而聚类属于无监督学习,无监督学习算法在训练的时候只需要特征矩阵X,不需要标签,曾经学过PCA的将维算法就是无监督学习中的一种,聚类算法也是无监督学习的代表算法之一,其目的就是将数据划分为有用的组或者簇,这种划分可以基于业务需求或者建模需求来完成,也可以单纯的帮助数据的自然结构和分布
在商业中,手头有大量的当前和潜在的客户的信息,可以使用聚类将客户划分为若干组,以便进一步的分析和开展营销活动,最有名的客户价值模型RFM,就是常常和聚类分析共同使用
再比如,聚类还可以用于降维和矢量量化(vetor quantization),可以将高维特征压缩到一列当中,常常用于图像、声音、视频等非结构化数据,可以大幅度压缩数据量