基于密度的聚类算法

最新推荐文章于 2024-07-19 16:20:14 发布

了不起的小胖子

最新推荐文章于 2024-07-19 16:20:14 发布

阅读量1.1w

点赞数 9

分类专栏：机器学习文章标签：机器学习聚类基于密度的聚类算法 matlab程序

本文链接：https://blog.csdn.net/qq_33613232/article/details/86693161

版权

本文介绍了基于密度的聚类算法，包括DBSCAN和OPTICS。DBSCAN无需预设类别数量，能识别任意形状的聚类及噪声点，但对参数敏感。OPTICS算法克服了DBSCAN对参数的依赖，生成簇排序以揭示密度结构。通过实例展示了这两种算法的原理和应用场景。

摘要由CSDN通过智能技术生成

基于密度的聚类方法

摘要：我们生活在数据大爆炸时代，每时每刻都在产生海量的数据如视频，文本，图像和等。由于数据的类型和大小已经超出了人们传统手工处理的能力范围，聚类，作为一种最常见的无监督学习技术，可以帮助人们给数据自动打标签，已经获得了广泛应用。基于密度的聚类是根据样本的密度分布来进行聚类。通常情况下，密度聚类从样本密度的角度出来，来考查样本之间的可连接性，并基于可连接样本不断扩展聚类簇，以获得最终的聚类结果。其中最著名的算法就是 DBSCAN 算法。本文将对基于密度的聚类算法做简单的介绍。

关键词：聚类算法基于密度 DBSCAN算法 OPTICS算法

1、关于聚类的总体介绍

1.1 聚类算法的来源

俗话说：“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。所谓类，通俗地说，就是指相似元素的集合。

聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

1.2 聚类算法的用途

聚类的用途是很广泛的。在文本分析处理上，聚类可以帮助新闻工作者把最新的微博，按照话题相似度进行分类，而快速得出热点新闻和关注对象。在生物医学上，可以根据对相似表达谱的基因进行聚类，从而知道未知基因的功能。在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块，可以作为一个单独的工具以发现数据库中分布的一些深层的信息，并且概括出每一类的特点，或者把注意力放在某一个特定的类上以作进一步的分析；并且，聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

聚类的目的就是把不同的数据点，按照它们的相似与相异度分割成不同的簇（注意：簇，就是把数据划分后的子集），确保每个簇中的数据都是尽可能相似，使不同簇的数据尽可能的相异。从模式识别的角度来讲，聚类就是在发现数据中潜在的模式，帮助人们进行分组归类以达到更好理解数据的分布规律。由于聚类是无监督学习方法，不同的聚类方法基于不同的假设和数据类型，由于数据通常可以以不同的角度进行归类，因此没有万能的通用聚类算法，并且每一种聚类算法都有其局限性和偏见性。也就是说某种聚类算法可能在市场数据上效果很棒，但是在基因数据上就无能为力了。

1.3 聚类算法的分类

聚类是机器学习中一种重要的无监督算法，它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性，而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角，让我们更深入的把握数据资源的价值、并据此指导生产生活。以下是五种常用的聚类算法。

1.3.1 K均值聚类

这一最著名的聚类算法主要基于数据点之间的均值和与聚类中心的聚类迭代而成。它主要的优点是十分的高效，由于只需要计算数据点与剧类中心的距离，其计算复杂度只有O(n)。其工作原理主要分为以下四步：

1.首先我们需要预先给定聚类的数目同时随机初始化聚类中心。我们可以初略的观察数据并给出较为准确的聚类数目；

2.每一个数据点通过计算与聚类中心的距离了来分类到最邻近的一类中；

3.根据分类结果，利用分类后的数据点重新计算聚类中心；

4.重复步骤二三直到聚类中心不再变化。（可以随机初始化不同的聚类中心以选取最好的结果）

这种方法在理解和实现上都十分简单，但缺点却也十分明显，十分依赖于初始给定的聚类数目；同时随机初始化可能会生成不同的聚类效果，所以它缺乏重复性和连续性。和K均值类似的K中值算法，在计算过程中利用中值来计算聚类中心，使得局外点对它的影响大大减弱；但每一次循环计算中值矢量带来了计算速度的大大下降。

1.3.2均值漂移算法

这是一种基于滑动窗口的均值算法，用于寻找数据点中密度最大的区域。其目标是找出每一个类的中心点，并通过计算滑窗内点的均值更新滑窗的中心点。最终消除临近重复值的影响并形成中心点，找到其对应的类别。

1.首先以随机选取的点为圆心r为半径做一个圆形的滑窗。其目标是找出数据点中密度最高点并作为中心；