机器学习西瓜书学习笔记【第九章】

第9章 聚类

9.1 聚类任务

什么是聚类任务?

  • **类别:**无监督学习
  • **目的:**通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

9.2 性能度量

什么是好的聚类?

  • **目的:**① 评估聚类结果的好坏 ② 确立优化的目标
  • **结论:**簇内的样本尺度尽可能彼此相似,簇间的样本尽可能不同。

9.2.1 外部指标

  • **外部指标:**将聚类结果与某个 “参考模型” 进行比较,称为 “ 外部指标 ”。

9.2.2 内部指标

  • **内部指标:**直接考察聚类结果而不利用任何参考模型,称为 “ 内部指标 ”。

小结

9.3 距离计算

样本间距离怎么确定?

9.3.1 距离度量 / 非距离度量

  • 若它是一个 “ 距离度量 ”,则应该满足以下性质:

9.3.2 有序属性 / 无序属性

有序属性
  • 欧氏距离:
  • 曼哈顿距离:
  • 切比雪夫距离:
无序属性
混合距离
加权距离

小结

9.4 原型聚类

9.4.1 k 均值算法

  • 步骤:
    • 随机选取样本作为初始均值向量(初始值:k 的值【即几个簇】)
    • 分别计算每个样本点到初始均值向量的距离,距离哪个点最近就属于哪个簇
    • 每个簇重新计算中心点,重复第二步直到收敛

9.4.2 学习向量量化

和 K-means 的不同:

  • 每个样例有类别标签,即 LVQ 是一种监督式学习;
  • 输出不是每个簇的划分,而是每个类别的原型向量;
  • 每个类别的原型向量不是简单的均值向量,考虑了附近非 / 同样例的影响。

例题:

9.4.3 高斯混合聚类

原先数据集是这个样子的:

某天,被黑客入侵,把两个数据集混合起来了,要怎么分开呢?

首先,我们确定了要分成两个高斯模型,我们随机选取两个 均值方差 作为初始值

之后,我们分别分析每个点对两个高斯模型的隶属度

做完以后,我们得到越红的点对红色高斯模型的隶属度越高,越绿对绿模型隶属度越高

隶属度又对模型本身的 均值 和 方差 造成影响,于是我们得到了 一次迭代后的 两个高斯模型,可以发现红圈基本没动,绿圈向右上方移动了一点

多次迭代的动画是这样的。

但是通过最开始的数据,我们知道我们的目的是找到下面的两个数据集【黄圈】

显然我们这次高斯聚类并不成功,这是由于我们给了它不好的初始值【随机值】,所以我们重新做一次,打算来手动输入初始值,那初始值怎么设定呢?我们选择,先用 K 均值的方法,来选定两个中心值,把这两个中心值作为我们的手动输入值,结果变成了这样。

我们发现还是没达到我们想要的效果,因此我们下一步不再使用简单的圆高斯模型,使用协方差矩阵,而不是每个高斯的方差,这样可以使圆圈变成椭圆形

到这里我们只是直观上对高斯模型有个了解,还有一些疑问,比如:图中的圈都带表什么呢?

这是一次期中考试的学生成绩分布,很明显他是属于高斯分布(正态分布)的

画成柱状图是这样的

经过简单的计算 均值方差 我们能够描绘出他的高斯曲线

μ 代表平均数,也就是平均成绩

其次是标准差,这个例子中,标准差是15,这很容易计算

我们发现 【均值 - 1个标准差】 和 【均值 + 1个标准差】,这段区域占总数的 68%,这是高斯分布的属性

而 【均值 - 2个标准差】 和【 均值 + 2个标准差】,这段区域占总数的 95%

【均值 - 3个标准差】 和【 均值 + 3个标准差】,这段区域占总数的 99%

知道了圈代表什么,还有一个问题,高斯模型我们知道,那高斯混合模型是什么意思呢?

我们看,这里有一个班级的两门课成绩,分别是物理和生物,数轴是以 20 为单位的,我们发现这次生物题比较简单,全班分数都挺高,而物理题比较难,全班成绩都低

我们把数据绘制成柱状图,通过柱状图我们发现他们都遵循高斯分布,尽管 均值 和 方差 不同,但都是高斯分布

假如就是这个数据集,我们想对它做高斯混合聚类处理,数据叠加到一起是这样的,它是一个模型,但并不是一个高斯分布,它是两个子集和合并,但合并之后并不是高斯分布

它是两个没有标签的高斯分布

经过计算机的高斯混合聚类,我们得到了这样的结果

到这里我们知道了,高斯混合分布本身并不是高斯模型,而是两个高斯模型的混合物,哪个点更可能属于哪一个高斯模型,它就被分到哪一个类中,这就是高斯混合模型的最简单的例子。

步骤
  1. 初始化 高斯混合成分的个数 k ,假设高斯混合分布模型参数 α(高斯混合系数) μ (均值) , Σ(协方差矩阵)
  2. 分别计算每个样本点的 后验概率 (该样本点属于每一个高斯模型的概率);
  3. 迭代 α μ , Σ;
  4. 重复第二步直到收敛。
难点
  • 后验概率 (该样本点属于每一个高斯模型的概率)的计算:
      • 上述公式由 7.18 相减化简而来
  • 怎样迭代 α μ , Σ;
    • α ——通过样本加权平均值来估计
    • Σ ——通过样本加权平均值来估计
    • μ ——由样本属于该成分的平均后验概率确定
例子

EM思想的体现

小结

9.5 密度聚类

**例题:**初始值:①邻域参数 ε ② 最少点个数 MinPts

9.6 层次聚类

例题:

总结

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值