理解各种聚类算法的差异

最新推荐文章于 2023-11-18 15:56:39 发布

李攀007

最新推荐文章于 2023-11-18 15:56:39 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_40367091/article/details/110629849

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

参考 https://blog.csdn.net/weixin_38197294/article/details/82289367

感觉上边这篇博客对聚类方法总结的非常好，尤其是他把不同聚类方法的差异总结为两点，一下子把混乱复杂的那么多聚类方法纳入到一个统一的视角下了，非常厉害。我这里把他的大纲摘抄出来便于理解，需要查看具体某一项对应哪些经典算法的，可以到上边链接里去看。

聚类算法的差异主要在于两点：
一是相似性衡量的标准不一样（同样的两个样本，衡量标准不同显然最后判断出的相似程度也不同。一个算法认为这两个样本很像，一个认为不太像，那么最后的聚类结果肯定不同）；
二是归类方式不同（即使两个算法用一样的衡量标准，都认为两个样本100%相似，然而一个算法选择将这两个100%相似的样本单独归为一类，另一个算法选择将他们划到最近的一类，这样聚类结果也不同）
所以聚类算法就是先看样本像不像，像了再看怎么放。像不像有讲究，怎么放也有讲究，算法的不同就在这两点。

聚类算法的结构：
一、相似性衡量
（直接衡量数据相似性或者间接衡量从数据中提取特征的相似性）
①距离（L范数等）
②相似系数（相关系数）
③核函数
④DTW
二、归类方法
①分层方法：逐渐从整体集合里排除还是向目标集合里添加
②分区聚类：事先指定类别个数，选几个初始中心点开始迭代，K-means。
③基于密度：事先指定圈的最大半径，和一个圈里最少容纳几个点。
④基于网格：计算网格密度，判断是否高密度单元。
⑤基于模型：基于概率模型和基于神经网络模型。
三、数据简化（optional，与聚类算法结合使用）
①变换（离散傅里叶变换、离散小波变换等）
②降维（线性降维如PCA等，非线性降维也即流型）
③抽样

李攀007

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
理解各种聚类算法的差异

参考 https://blog.csdn.net/weixin_38197294/article/details/82289367感觉上边这篇博客对聚类方法总结的非常好，尤其是他把不同聚类方法的差异总结为两点，一下子把混乱复杂的那么多聚类方法纳入到一个统一的视角下了，非常厉害。我这里把他的大纲摘抄出来便于理解，需要查看具体某一项对应哪些经典算法的，可以到上边链接里去看。聚类算法的差异主要在于两点：一是相似性衡量的标准不一样（同样的两个样本，衡量标准不同显然最后判断出的相似程度也不同。一个算法认为这.
复制链接

扫一扫