聚类-入门

坠金

已于 2022-07-15 15:38:46 修改

阅读量396

点赞数

分类专栏：机器学习之聚类/回归文章标签：聚类算法数据挖掘

于 2022-05-05 17:32:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41413211/article/details/124593231

版权

机器学习之聚类/回归专栏收录该内容

14 篇文章 9 订阅 ¥9.90 ¥99.00

订阅专栏

本文介绍了聚类与分类的区别，聚类的种类包括原型聚类、密度聚类、层次聚类，以及软硬聚类的概念。同时，文章讨论了聚类的性能度量，如外部指标和内部指标，并提到了距离计算在聚类中的重要性，以闵可夫斯基距离为例。文章适合初学者了解聚类的基本概念。

摘要由CSDN通过智能技术生成

写在前面，这个专栏的盈利超过10块的就捐给山区儿童买书，最后一次更新更捐款去向。顺便想体验一下收费专栏的感觉（手动狗头）

2022/7/15这是这个专栏迄今为止的收益，然后这是捐款去向，下面进入正题

聚类和分类的区别：

分类：训练时会给标签，通过监督学习，使模型能够预测新数据属于什么类别

聚类：训练时没有标签，通过无监督学习，试图把数据分成几个不相交的子集

聚类的种类：

根据方法分为：原型聚类 / 密度聚类 / 层次聚类

根据同一个样本是否可以属于不同簇分为：软聚类 / 硬聚类

聚类的性能度量：

注意，现实中聚类的分类效果是主观的，大体上希望，离得近（相似度高）的在同一堆（簇）里边

外部指标：

将我们的结果和“参考模型”结果比较

参考模型：

定义类似高中物理的没有误差真实值，实际不存在

假定有个更牛逼的聚类模型作为“参考模型”，它的聚类结果作为正确答案。现实中往往没有一个真实的“参考模型”

内部指标：

直接主观判断聚类的结果，比如人眼看数据分布，看凑在一起的一堆是不是同一类，是就觉得分得不错

距离计算：

很多聚类方法往往都要涉及距离计算，他们的原理是，近朱者赤近墨者黑，比如我住的地方离东南大学比较近，就划分到没有假期的学生簇。所以怎么衡量“远”“近”？

闵可夫斯基距离

p=1时，闵可夫斯基距离=曼哈顿距离

p=2时，闵可夫斯基距离=欧式距离

具体的聚类算法原理及实现见聚类专栏

参考：《机器学习》周志华

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

坠金 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。