聚类任务(笔记)

聚类任务是一种无监督学习任务,其主要目标是将数据集中的样本按照某种相似性或距离度量分成若干个组,使得组内的样本相似度高,而组间的相似度低。换句话说,聚类算法试图发现数据中自然存在的群集结构,而不依赖于预先定义的类别标签。

K均值聚类(K-means clustering)是一种常见的无监督学习算法,用于将数据集中的样本分成K个不重叠的簇(cluster)。它的基本思想是通过迭代的方式,将样本分配到K个簇中,使得每个样本点到其所属簇的中心点(质心)的距离最小化。

        K均值聚类广泛应用于数据挖掘、图像分析、文本挖掘等领域,常用于数据预处理、模式识别和基于实例的分类等任务中。算法高效,适用于大数据集,尤其是在特征维度较低时效果更佳。对于存在异常值的数据集,K均值可能会产生不理想的聚类结果,因为异常值会影响质心的计算。

层次聚类(Hierarchical Clustering)是一种聚类分析方法,它根据数据点之间的相似性逐步构建聚类层次结构,可以分为两种主要类型:凝聚层次聚类(Agglomerative Hierarchical Clustering)和分裂层次聚类(Divisive Hierarchical Clustering)。

        凝聚层次聚类是最常见的层次聚类方法之一,它的基本思想是从每个样本点作为一个独立的簇开始,逐步将最相似的簇合并,直到所有样本点最终合并为一个簇。

        分裂层次聚类与凝聚层次聚类相反,它从一个包含所有样本的簇开始,逐步将其分割成更小的子簇,直到每个样本点作为一个独立的簇。

        层次聚类不需要事先指定簇的数量,它根据数据自身的结构动态地构建聚类层次。层次聚类结果可以以树状图(聚类树或树状图)的形式展示,便于直观理解数据的聚类结构。层次聚类适用于各种数据类型和形状的聚类,但是由于其复杂度较高,处理大规模数据集时可能效率不高。

高斯混合模型(Gaussian Mixture Model,简称GMM)是一种概率模型,用于描述多个高斯分布(正态分布)混合而成的数据分布。它是一种基于概率密度函数的生成模型,通常用于聚类分析。

        通过对每个样本点进行概率计算或后验概率估计,将样本点分配到概率最大的高斯分布对应的簇中。通过最大似然估计或期望最大化(EM)算法来估计模型的参数,包括每个高斯分布的均值、方差和权重。能够生成新的数据样本,通过从每个高斯分布中随机采样来生成符合模型分布的新数据点。

密度聚类是一种无监督学习方法,主要用于发现具有不同密度的数据点所形成的簇。与传统的基于距离的方法(如K均值)不同,密度聚类不需要预先指定簇的数量,而是根据数据点的密度分布自动发现簇的形状和数量。

        DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种常用的密度聚类算法,适用于发现任意形状的密集簇,并能够有效处理噪声数据点。它的主要特点是不需要预先指定簇的数量,而是通过两个参数来控制聚类的结果:ε (epsilon)和 MinPts。

        DBSCAN能够识别并分离任意形状的簇,不像K均值算法那样假设簇为球形。不需要预先指定簇的数量,根据数据自动发现簇结构。通过将孤立的数据点标记为噪声,DBSCAN能有效地处理数据中的噪声点。对于密度不均匀的数据集,DBSCAN能够识别不同密度区域的簇。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值