聚类

聚类

聚类是一种无监督的机器学习任务,它可以自动将数据划分成类cluster。因此聚类分组不需要提前被告知所划分的组是什么样子的。
因为我们甚至不知道我们在寻找什么,所以聚类只是用于发现,而不是预测。

  1. 本质上是将N个样本,映射到K个簇中
  2. 每个簇至少有1个样本
  3. 一个样本只隶属于一个簇

先给定一个初始划分,迭代改变隶属关系。

K-means

流程

  1. 给定初始中心点
    在这里插入图片描述

  2. 每一点和初始中心点计算欧氏距离

  3. 根据距离划分区间
    在这里插入图片描述

  4. 如图划分好区域后,分别计算这三个区域的平均点,这三个均值点作为新的初始点。
    均 值 X = ∑ i = 0 n x i 均值X=\sum_{i=0}^{n}x_{i} X=i=0nxi
    均 值 Y = ∑ i = 0 n y i 均值Y=\sum_{i=0}^{n}y_{i} Y=i=0nyi

在这里插入图片描述

  1. 再根据新的中心点,计算欧氏距离,划分区域。
    在这里插入图片描述

  2. 再迭代
    在这里插入图片描述

  3. 发现已经没有类别的变动了,算法收敛,所以分类结束。

缺点

  1. 开始中心点随机,随机到同一簇里,会导致问题。最好是初始根据先验知识人为给定。
  2. K是几?不能确定

K-Mediods

把之前找中心点的求均值改成求中位数
就增加了点抗干扰能力(没啥大用)

二分K-Means

在这里插入图片描述
初始中心点选的比较近的,就合在一起。
初始中心点选的比较远的,且划分的数量比较多,就分开。

K-Means++

  1. 选择初始化簇中心稍远的一点
  2. 随机选择第一个中心点
  3. 算每个样本到第一个样本的距离,样本距离可以算成概率,越远被选择为中心点的概率越大。

那K(类别数)应该怎么选呢??

首先来看一下K-means的损失
损失函数是MSE=每个分类区域的MSE加和
每个MSE怎么算呢?
在这里插入图片描述
每个区域的MSE=样本点到中心点的距离加和

肘部法:纵轴是损失
在这里插入图片描述
找一个点,其损失A-B最大
意义是:上一次的error-下一次的error 最大,就是再增长K,error没有明显变化。

Canopy聚类

  1. 一次迭代出结果。
  2. 用来找中心点。
  3. 不用指定K。
  4. 一个点可能属于多个类别。

流程:
在这里插入图片描述
5. 首先选一个中心点,图中鼠标位置。
6. T1,T2为半径画两个圆。(这是超参数)
7. T2半径里面是属于同一类,且不会被选为中心点。
8. T1半径里面是属于同一类,有可能被选为中心点。
9. T1外面的是不同的类
10. 结束条件是每一个点都被划分到某一类。

作用:
用来获取K

层次聚类

理解起来有点像无监督的决策树

分裂的层次聚类: DIANA

把原始数据集去不断的分裂,然后去计算每个子数据集里面的相似性,然后不断的分裂,把数据集分为很多的类别

凝聚的层次聚类: AGNES

把一个个样本,不断的自底向上的聚类,然后一层一层的来聚,最后聚成一完整的数据集,这种用的更多一些

密度聚类

统计样本周围密度,密度达到阈值就添加到这一簇

DBSCAN

  1. Density Based Spatial Clustering of Applications with Noise

  2. 对象邻域:给定对象在半径内的区域

  3. 如果给定5为阈值,那么q是7,p是3,那么q是核心对象,那么q圈起来的点是一个类别,且其可以指定一个点去画圈,看是否能发展为核心对象。

  4. 而p是在q这个范围(制定一个半径)内的,那么说q到p是核心密度可达

  5. 在这里插入图片描述

  6. q密度可达p1,p1密度可达p,那么q到p是密度可达

  7. 在这里插入图片描述

在这里插入图片描述

  1. 从o点能密度可达q,也能密度可达p
  2. p和q叫密度相连
  3. 簇就是密度相连的最大的点的集合
  4. 即最大的密度相连构成的集合就是簇
  5. 如何一个点不是核心对象,也不能被别的点密度可达,就是噪声
  6. 在这里插入图片描述

优点

  1. 聚类一些不规则的样本。
  2. 不需要知道K,只需要设定半径r和和阈值m。
  3. 有些点会成为孤岛

谱聚类

没太看懂。。。。。。再补充。。。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值