机器学习中,已经分析过属于回归任务的线性回归模型,以及属于分类任务的逻辑回归模型,两者都属于有监督模型,即数据集必须包含真实值,也就是标签。如果我们的数据集没有确切的标签,这种情况下归类于无监督问题,本篇讲解机器学习中简单好用的两类无监督聚类算法。配套
【课件+代码】资料和人工智能学习大礼包,关注V X信公众号【迪哥谈AI】回复888 分
聚类任务的本质就是分类,将相似的东西划归为同一类。由于数据集中没有标签,因此无监督聚类任务的难点在于很难直接评估模型的效果,模型调参也没有清晰的依据,K-means算法是机器学习中经典的聚类算法
K-means 算法的基本思想是将所有的数据划分为 K 个簇,K 的数值是人为设定的,簇中心的定义是质心,即该簇中所有的向量在各个维度上计算得到的平均值。 数据集中每个点计算与簇中心的欧几里得距离或者余弦相似度,并将其作为入簇