聚类-入门

本文介绍了聚类与分类的区别,聚类的种类包括原型聚类、密度聚类、层次聚类,以及软硬聚类的概念。同时,文章讨论了聚类的性能度量,如外部指标和内部指标,并提到了距离计算在聚类中的重要性,以闵可夫斯基距离为例。文章适合初学者了解聚类的基本概念。
摘要由CSDN通过智能技术生成

写在前面,这个专栏的盈利超过10块的就捐给山区儿童买书,最后一次更新更捐款去向。顺便想体验一下收费专栏的感觉(手动狗头)

  2022/7/15这是这个专栏迄今为止的收益,然后这是捐款去向,下面进入正题

 

聚类和分类的区别:

分类:训练时会给标签,通过监督学习,使模型能够预测新数据属于什么类别

聚类:训练时没有标签,通过无监督学习,试图把数据分成几个不相交的子集

聚类的种类:

根据方法分为:原型聚类 / 密度聚类 / 层次聚类

根据同一个样本是否可以属于不同簇分为:软聚类 / 硬聚类

聚类的性能度量:

注意,现实中聚类的分类效果是主观的,大体上希望,离得近(相似度高)的在同一堆(簇)里边

外部指标:

将我们的结果和“参考模型”结果比较

参考模型:

定义类似高中物理的没有误差真实值,实际不存在

假定有个更牛逼的聚类模型作为“参考模型”,它的聚类结果作为正确答案。现实中往往没有一个真实的“参考模型”

内部指标:

直接主观判断聚类的结果,比如人眼看数据分布,看凑在一起的一堆是不是同一类,是就觉得分得不错

距离计算:

很多聚类方法往往都要涉及距离计算,他们的原理是,近朱者赤近墨者黑,比如我住的地方离东南大学比较近,就划分到没有假期的学生簇。所以怎么衡量“远”“近”?

闵可夫斯基距离

p=1时,闵可夫斯基距离=曼哈顿距离

p=2时,闵可夫斯基距离=欧式距离

具体的聚类算法原理及实现见聚类专栏

参考:《机器学习》周志华

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坠金

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值