写在前面,这个专栏的盈利超过10块的就捐给山区儿童买书,最后一次更新更捐款去向。顺便想体验一下收费专栏的感觉(手动狗头)
2022/7/15这是这个专栏迄今为止的收益,然后这是捐款去向,下面进入正题
聚类和分类的区别:
分类:训练时会给标签,通过监督学习,使模型能够预测新数据属于什么类别
聚类:训练时没有标签,通过无监督学习,试图把数据分成几个不相交的子集
聚类的种类:
根据方法分为:原型聚类 / 密度聚类 / 层次聚类
根据同一个样本是否可以属于不同簇分为:软聚类 / 硬聚类
聚类的性能度量:
注意,现实中聚类的分类效果是主观的,大体上希望,离得近(相似度高)的在同一堆(簇)里边
外部指标:
将我们的结果和“参考模型”结果比较
参考模型:
定义类似高中物理的没有误差真实值,实际不存在
假定有个更牛逼的聚类模型作为“参考模型”,它的聚类结果作为正确答案。现实中往往没有一个真实的“参考模型”
内部指标:
直接主观判断聚类的结果,比如人眼看数据分布,看凑在一起的一堆是不是同一类,是就觉得分得不错
距离计算:
很多聚类方法往往都要涉及距离计算,他们的原理是,近朱者赤近墨者黑,比如我住的地方离东南大学比较近,就划分到没有假期的学生簇。所以怎么衡量“远”“近”?
闵可夫斯基距离
p=1时,闵可夫斯基距离=曼哈顿距离
p=2时,闵可夫斯基距离=欧式距离
具体的聚类算法原理及实现见聚类专栏
参考:《机器学习》周志华