聚类

本文详细介绍了五种聚类算法:KMeans因其快速但需预设类别数;均值漂移自动发现类别且向高密度区汇聚;DBSCAN无需预设类别且能识别噪声,但在不同密度簇中表现不佳;GMM以高斯分布灵活描述类别,支持概率分配;分层聚类自下而上构建层次结构,能灵活选择类别数但效率较低。
摘要由CSDN通过智能技术生成

1.KMeans聚类
选择想要聚成多少组。随机初始化中心点,计算该点与每个组中心之间的距离,然后将该点分类为其中心最接近它的组,对每个数据点进行分类。基于这些分类点,我们通过取组中所有向量的均值来重新计算组中心。重复这些步骤进行一定数量的迭代,直到组中心在迭代之间没有太大变化。

KMeans的优势在于它非常快,因为我们所做的只是计算点和组中心之间的距离。另一方面,KMeans有几个缺点。首先,必须选择有多少类。K-means也从随机选择的聚类中心开始,因此它可以产生不同的聚类结果。

2.均值漂移聚类
均值漂移聚类试图找到数据点的密集区域。它是一种基于质心的算法,我们从以C点(随机选择)为中心并以半径r为核心的圆形滑动窗口开始,在每个步骤上迭代地移动到更高密度区域直到收敛。

(1)在每次迭代中,通过将中心点移动到窗口内的点的平均值(因此名称),将滑动窗口移向更高密度的区域。滑动窗口内的密度与其内部的点数成比例。当然,通过移动到窗口中的点的平均值,它将逐渐移向更高点密度的区域。
(2)我们继续根据平均值移动滑动窗口,直到没有方向可以移动内核中的更多点。
(3)步骤1至2的该过程用许多滑动窗口完成,直到所有点都位于窗口内。当多个滑动窗口重叠时,保留包含最多点的窗口。然后根据数据点所在的滑动窗口对数据点进行聚类。

与K-means聚类相比,不需要选择聚类数量,因为均值自动发现了这一点。这是一个巨大的优势。群集中心向最大密度点汇合的事实也是非常理想的,因为它非常直观易懂,并且非常适合自然数据驱动的意义。缺点是窗口大小/半径“r”的选择。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值