机器学习.周志华《9 聚类》

最新推荐文章于 2022-11-07 20:20:37 发布

女王の专属领地

最新推荐文章于 2022-11-07 20:20:37 发布

阅读量824

点赞数

分类专栏：机器学习

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/julialove102123/article/details/79893662

版权

机器学习专栏收录该内容

71 篇文章 39 订阅

订阅专栏

目录：

聚类任务
性能度量
距离计算
原型聚类
密度聚类
层次聚类方法

聚类任务

聚类：经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别。

聚类过程仅能自动形成簇结构，簇说对应的概念语义需要使用者来把我和命名。

聚类既可以作为一个单独过程，用于寻找数据内在的分布结构；也可以作为分类等任务的前驱过程。

聚类直观上来说是将相似的样本聚在一起，从而形成一个类簇（cluster）。那首先的问题是如何来度量相似性（similarity measure）呢？这便是距离度量，在生活中我们说差别小则相似，对应到多维样本，每个样本可以对应于高维空间中的一个数据点，若它们的距离相近，我们便可以称它们相似。那接着如何来评价聚类结果的好坏呢？这便是性能度量，性能度量为评价聚类结果的好坏提供了一系列有效性指标。

性能度量

聚类的性能度量又叫“有效性指标”；

簇内相似度：越高越好；
簇间相似度：越低越好；

性能度量分类：

外部指标：将聚类结果与某个“参考模型”进行比较；如：Jaccard系数、FM指数、Rand指数等

内部指标：直接考察聚类结果而不利于任何参考模型；如：DB指数、Dunn指数；

距离计算

距离度量dist（x,y）需要满足的一些基本性质：

常用距离度量：

常用属性划分：

连续属性（数值属性）：在定义域上有无穷多个可能的取值；
离散属性（列名属性）：在定义域上是有限个取值；

距离度量中的属性需要考虑“序”：

无序属性：VDM

混合属性：闵可夫斯基距离和VDM结合

不同属性重要性不同：加权距离

Eg：加权闵可夫斯基距离：

非度量距离：不一定满足距离度量的所有基本性质；

距离计算式：可使用“距离度量学习”来实现；

原型聚类

原型聚类（基于原型的聚类）：算法先对原型进行初始化，然后对原型进行迭代更新求值。

k均值算法：贪心算法

学习向量量化：数据样本带有类别标记；

高斯混合聚类：采用概率模型来表达聚类原型；

密度聚类

密度聚类（基于密度的聚类）：从样本密度的角度来考察样本之间的可连接性，并基于可连接性不断扩张聚类簇来获得最终的聚类结果。

DBSCAN密度聚类算法：

DBSCAN中的“簇”：由密度可达关系到处的最大的密度相连样本集合。即就是：

DBSCAN算法：

层次聚类方法

层次聚类：试图在不同层次上对数据集进行划分，从而形成树形的聚类结构。

数据集的划分：“自底向上”的聚合策略、“自顶向下”的分拆策略；

AGNES:自底向上聚合策略：先将每个样本看做一个初始聚类簇，然后再每一步中找出距离最近的两个聚类进行合并，知道达到预设的聚类个数。

距离计算：

AGNES 算法：

------*-*---------------------------------------------------------------------------------------------------------*-*----

更多详细内容请关注公众号：目标检测和深度学习

-------…^-^……----------------------------------------------------------------------------------------------------------…^-^……--

女王の专属领地

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习.周志华《9 聚类》

目录：聚类任务性能度量距离计算原型聚类密度聚类层次聚类方法聚类任务聚类：经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别。聚类过程仅能自动形成簇结构，簇说对应的概念语义需要使用者来把我和命名。聚类既可以作为一个单独过程，用于寻...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

女王の专属领地 您的鼓励是我最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。