机器学习 day06(二)

一. 聚类的性能评测

1. 导入digits数据集,分割训练集和测试集

这个数据集是随便导入的,也可以选择其他数据集
在这里插入图片描述
标签 target 有10个分类

2. 导入聚类算法,训练,预测
  1. 导入聚类算法,将样本集划分为10个聚类
    在这里插入图片描述
    此时数据有标签类别,评测的时候可以用聚类划分和真实的类别之间的吻合程度

  2. 训练
    在这里插入图片描述

  3. 预测
    K-means还提供了预测机制,预测基于前面的训练,把测试集样本依次带入,查看这个些样本分别落在哪一个聚类中,然后把响应聚类标号给对应的样本
    在这里插入图片描述

3. ARI指标

聚类和类别之间的吻合程度,我们称为ARI指标
在这里插入图片描述
修改 参数n_cluster可改变ARI指标

  1. n_cluster=9
    在这里插入图片描述
    可以发现ARI指标变小了
    在这里插入图片描述
  2. n_cluster=11
    在这里插入图片描述
    还是比 n_cluster=10时ARI指标更小
    所以 n_cluster=10时,此时算法的ARI指标最佳
4. 轮廓系数

聚类大部分情况下处理的无标签的数据,评测的时候不能用ARI;我们可以用一个指标,既能兼顾到聚类内部的聚合程度,又能兼顾到聚类之间的离散程度,这个指标就是轮廓系数。
轮廓系数越大,则聚类划分越合理

查看轮廓系数
在这里插入图片描述
这两个轮廓系数都挺小的,但是,如果n_cluster≠10,这个轮廓系数更差

5. 用轮廓系数来决定聚类个数
  1. 导入两组1~100的随机数
    在这里插入图片描述
  2. 定义一个列表,存储若干个聚类K的可取值,把特征组合成样本
    在这里插入图片描述
  3. 求出每一次划分的轮廓系数
    在这里插入图片描述
    查看图像
    在这里插入图片描述
  4. 作出轮廓系数与k值之间的关系图

在这里插入图片描述
这两个随机数组,当聚类数为9时,轮廓系数最佳

二. 聚类实践与常见错误

导包,使用make_blobs创建样本点

1、数据偏差太大
  1. 创建一个样本,指定这些样本点的特征数为2,样本数为150,类别数为3,随机程度为5

在这里插入图片描述

  1. 用聚类算法将上面的样本点分成3类
    在这里插入图片描述
    从图像对比,可以明显发现数据偏差大
2、内部标准差太大
  1. 创建一个样本,指定这些样本点的特征数为2,样本数为150,类别数为3,聚类中心点的坐标为[0.5,2,10]

在这里插入图片描述

  1. 用聚类算法将上面的样本点分成3类
    在这里插入图片描述
    由于聚类中心点的坐标的限制,内部标准差太大导致聚类的偏差
3、样本数量差别太大
  1. 创建一个样本,指定这些样本点的特征数为2,样本数为1500,类别数为3,随机程度为0

在这里插入图片描述
2) 用聚类算法将上面的样本点分成3类
在这里插入图片描述
由于样本数量的差距,导致聚类的偏差

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值