数据挖掘笔记:聚类算法


啥是聚类?

在讲聚类之前,先讲讲无监督学习

  • 无监督学习:在训练的时候只需要特征矩阵X,不需要标签;
  • 聚类算法/无监督分类作用:将数据划分成有意义或有用的组(或簇);

聚类和分类的比较如下图所示:


KMeans

聚类作为机器学习的一种常用方式,其中最为著名的就是KMeans算法

  • 核心任务:根据我们设定好的K,找出K个最优的质心,并将离这些质心最近的数据分别分配到这些质心代表的簇中去;
  • 工作流程:如下图所示:

    将其工作过程图像化后如下图所示:规定将数据分为4簇(K=4),其中白色X代表质心的位置

右边的那个图可以看出:第六次迭代之后,基本上质心的位置就不再改变了,生成的簇也变得稳定。此时聚类就完成了,接下来就可以对这四类数据进行不同的处理;

但是由于其是无监督学习,没有特别的指标来定义分类结果好坏。所以要结合问题的专业领域知识来综合分析聚类结果,从而得知分类效果的可信度;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值