理解各种聚类算法的差异

参考 https://blog.csdn.net/weixin_38197294/article/details/82289367

感觉上边这篇博客对聚类方法总结的非常好,尤其是他把不同聚类方法的差异总结为两点,一下子把混乱复杂的那么多聚类方法纳入到一个统一的视角下了,非常厉害。我这里把他的大纲摘抄出来便于理解,需要查看具体某一项对应哪些经典算法的,可以到上边链接里去看。

聚类算法的差异主要在于两点
一是相似性衡量的标准不一样(同样的两个样本,衡量标准不同显然最后判断出的相似程度也不同。一个算法认为这两个样本很像,一个认为不太像,那么最后的聚类结果肯定不同);
二是归类方式不同(即使两个算法用一样的衡量标准,都认为两个样本100%相似,然而一个算法选择将这两个100%相似的样本单独归为一类,另一个算法选择将他们划到最近的一类,这样聚类结果也不同)
所以聚类算法就是先看样本像不像,像了再看怎么放。像不像有讲究,怎么放也有讲究,算法的不同就在这两点。

聚类算法的结构
一、相似性衡量
(直接衡量数据相似性 或者 间接衡量从数据中提取特征的相似性)
①距离(L范数等)
②相似系数(相关系数)
③核函数
④DTW
二、归类方法
①分层方法:逐渐从整体集合里排除 还是 向目标集合里添加
②分区聚类:事先指定类别个数,选几个初始中心点开始迭代,K-means。
③基于密度:事先指定圈的最大半径,和一个圈里最少容纳几个点。
④基于网格:计算网格密度,判断是否高密度单元。
⑤基于模型:基于概率模型和基于神经网络模型。
三、数据简化(optional,与聚类算法结合使用)
①变换(离散傅里叶变换、离散小波变换等)
②降维(线性降维如PCA等,非线性降维也即流型)
③抽样

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值