ML(13)-聚类


聚类:无监督学习,将相似的样本聚为一类。核心如何定义相似。
分类:有监督学习,依据分类准则,将样本划分为不同的类。核心分类器的设计(KNN)

聚类:根据彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。

1.K-mean

  1. 随机选取k个类别中心
  2. 计算每个样本点到每个中心的距离,将样本归类到距离最近的类中。
  3. 依据每个类的样本更新类中心
  4. 重复2,3直至类中心变化小于某个阈值。

K-meas 算法的优点:简介快速,时间复杂度O(nkt)
K-meas 算法的缺点:需要预先知道/设定聚类数量k

2.系统聚类

自底向上的一种方法:初始时,各个样本自成一类,依据定义的相似度,每次合并一个类,不断向上合并直至到达设定了类别数

  1. 定义样本间距离和类间距离的计算方法,每个样本自成一类
  2. 计算任意两个类间距离,将距离最短的两个类合并
  3. 重复步骤2直至聚为k类

样本间距离:欧几里得距离、均方距离、曼哈顿距离(1范数)、余弦距离、最大距离(无穷范数)
类间距离:最大距离、最小距离、平均距离、离差平方和距离

系统聚类的优点:灵活定义的距离对昂使得他有广泛的适用性
系统聚类的缺点:时间复杂度高,一般为 o ( n 3 ) o(n^3) o(n3)

3.DBSCAN聚类算法

DBSCAN:density-based spatial clustering of applications with noise
将类定义为:密度相连的点的最大集合,通过在样本空间中不断寻找最大集合从而完成聚类
有几个基本定义: ϵ \epsilon ϵ领域,核心对象,直接密度可达,密度可达,密度相连

密度可达是直接密度可达的传递闭包

  1. 定义半径 ϵ \epsilon ϵ和MinPts
  2. 抽取未被访问的样本点q
  3. 检验是否为核心对象,是-进入步骤4,否-返回步骤2
  4. 找出该样本点所有密度可达的对象,构成聚类 C q C_q Cq.
  5. 重复步骤2,直至所有样本点都被访问过一遍

能在带噪声的样本空间中发现任意形状的聚类并排除噪声

DBSCAN聚类的优点:能够过滤低密度区域,发现稠密样本点。不需要制定聚类数,可以过滤噪声,时间复杂度 o ( n log ⁡ n ) o(n\log n) o(nlogn)

(概念稍微复杂点的一个聚类算法)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值