机器学习.周志华《9 聚类》

目录:

  • 聚类任务
  • 性能度量
  • 距离计算
  • 原型聚类
  • 密度聚类
  • 层次聚类方法

聚类任务

聚类:经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。

聚类过程仅能自动形成簇结构,簇说对应的概念语义需要使用者来把我和命名。

聚类既可以作为一个单独过程,用于寻找数据内在的分布结构;也可以作为分类等任务的前驱过程。

聚类直观上来说是将相似的样本聚在一起,从而形成一个类簇(cluster)。那首先的问题是如何来度量相似性(similarity measure)呢?这便是距离度量,在生活中我们说差别小则相似,对应到多维样本,每个样本可以对应于高维空间中的一个数据点,若它们的距离相近,我们便可以称它们相似。那接着如何来评价聚类结果的好坏呢?这便是性能度量,性能度量为评价聚类结果的好坏提供了一系列有效性指标。


性能度量

聚类的性能度量又叫“有效性指标”;

  • 簇内相似度:越高越好;
  • 簇间相似度:越低越好;

性能度量分类:

  • 外部指标:将聚类结果与某个“参考模型”进行比较;如:Jaccard系数、FM指数、Rand指数等



  • 内部指标:直接考察聚类结果而不利于任何参考模型;如:DB指数、Dunn指数;



距离计算

距离度量dist(x,y)需要满足的一些基本性质:


常用距离度量:


常用属性划分:

  • 连续属性(数值属性):在定义域上有无穷多个可能的取值;
  • 离散属性(列名属性):在定义域上是有限个取值;

距离度量中的属性需要考虑“序”:

  • 无序属性:VDM


  • 混合属性:闵可夫斯基距离和VDM结合


  • 不同属性重要性不同:加权距离

Eg:加权闵可夫斯基距离:


非度量距离:不一定满足距离度量的所有基本性质;

距离计算式:可使用“距离度量学习”来实现;


原型聚类

原型聚类(基于原型的聚类):算法先对原型进行初始化,然后对原型进行迭代更新求值。

k均值算法:贪心算法



学习向量量化:数据样本带有类别标记;

高斯混合聚类:采用概率模型来表达聚类原型;




密度聚类

密度聚类(基于密度的聚类):从样本密度的角度来考察样本之间的可连接性,并基于可连接性不断扩张聚类簇来获得最终的聚类结果。

DBSCAN密度聚类算法:


DBSCAN中的“簇”:由密度可达关系到处的最大的密度相连样本集合。即就是:


DBSCAN算法:


层次聚类方法

层次聚类:试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。

数据集的划分:“自底向上”的聚合策略、“自顶向下”的分拆策略;

AGNES:自底向上聚合策略:先将每个样本看做一个初始聚类簇,然后再每一步中找出距离最近的两个聚类进行合并,知道达到预设的聚类个数。

距离计算:



AGNES 算法:



------*-*---------------------------------------------------------------------------------------------------------*-*----

更多详细内容请关注公众号:目标检测和深度学习

-------…^-^……----------------------------------------------------------------------------------------------------------…^-^……--



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

女王の专属领地

您的鼓励是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值