机器学习(九)聚类K-means

什么是聚类

聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小; 属于无监督学习 

聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离 

和分类算法的区别: 分类算法是有监督学习,基于有标注的历史数据进行算法模型构建 聚类算法是无监督学习,数据集中的数据是没有标注的

相似度/距离公式

pearson相关系数


K-means算法:


K-means算法优缺点:

缺点: K值是用户给定的,在进行数据处理前,K值是未知的,不同的K值得到的结果也不一样;

             对初始簇中心点是敏感的 

            不适合发现非凸形状的簇或者大小差别较大的簇 

            特殊值(离群值)对模型的影响比较大

 优点: 理解容易,聚类效果不错 

        处理大数据集的时候,该算法可以保证较好的伸缩性和高效率

         当簇近似高斯分布的时候,效果非常不错

K-means优化:

二分K-Means算法



K-means++算法



Mini Batch K-means算法:


聚类算法的衡量指标--轮廓系数


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值