机器学习总结——聚类

性能度量

距离计算

原型聚类

k均值

算法

  1. 随机选k个点作为初始聚类中心
  2. 计算每个样本到k个聚类中心的距离,选距离最近的作为类标记
  3. 重新计算聚类中心
  4. 重复2、3过程
  5. 直至收敛或达到迭代次数

优缺点

优点
  1. 对于大型数据集也是简单高效、时间复杂度、空间复杂度低。
缺点
  1. 最重要是数据集大时结果容易局部最优
  2. 需要预先设定K值,对最先的K个点选取很敏感
  3. 对噪声和离群值非常敏感;只用于numerical类型数据
  4. 不能解决非凸(non-convex)数据。

学习向量量化 LVQ

高斯混合聚类

  1. 选择簇的数量(如 K-Means 所做的),并随机初始化每个簇的高斯分布参数。
  2. 给定每个簇的高斯分布,计算每个数据点属于一个特定簇的概率。一个点越靠近高斯的中心,它就越可能属于该簇。
  3. 基于这些概率,我们计算一组新的高斯分布参数使得簇内的数据点的概率最大化。我们使用数据点位置的加权和来计算这些新参数,其中权重是数据点属于该特定簇的概率。
  4. 重复步骤2和3直到收敛。

密度聚类

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

算法

  1. 从任一对象点p开始;
  2. 寻找并合并核心p对象直接密度可达(eps)的对象;
  3. 如果p是一个核心点,则找到了一个聚类,如果p是一个边界点(即从p没有密度可达的点)则寻找下一个对象点;
  4. 重复2、3,直到所有点都被处理

优缺点

优点
  1. 对噪声不敏感
  2. 能发现任意形状的聚类。
缺点
  1. 聚类的结果与参数有很大的关系
  2. DBSCAN用固定参数识别聚类,但当聚类的稀疏程度不同时,相同的判定标准可能会破坏聚类的自然结构,即较稀的聚类会被划分为多个类或密度较大且离得较近的类会被合并成一个聚类。

OPTICS(Ordering Points To Identify Clustering Structure)

DBSCAN的扩展, 通过优先对高密度(high density)进行搜索,然后根据高密度的特点设置参数,改善了DBSCAN的不足。

层次聚类

AGNES(AGglomerative NESting)

采用自底向上的聚合策略来产生层次聚类结构

算法

  1. 将每个对象当成一个初始簇
  2. 计算任意两个簇的距离,并找到满足度量条件的两个簇
  3. 合并两个簇,生成新的簇的集合
  4. 重复2和3直到终止条件得到满足

合并簇方法划分

single-linkage

最近距离由两个簇的最近的样本来决定

d i s t m i n ( C i , C j ) = min ⁡ p ∈ C i , p ′ ∈ C j { ∣ p − p ′ ∣ } dist_{min}(C_i,C_j)=\min_{p\in{C_i},p'\in{C_j}}\{|p-p'|\} distmin(Ci,Cj)=minpCi,pCj{pp}

complete-linkage

最大距离由两个簇的最远的样本来决定
d i s t m a x ( C i , C j ) = max ⁡ p ∈ C i , p ′ ∈ C j { ∣ p − p ′ ∣ } dist_{max}(C_i,C_j)=\max_{p\in{C_i},p'\in{C_j}}\{|p-p'|\} distmax(Ci,Cj)=maxpCi,pCj{pp}

average-linkage

由两个簇的平均距离决定
d i s t a v g ( C i , C j ) = 1 n i n j ∑ p ∈ C i , p ′ ∈ C j { ∣ p − p ′ ∣ } dist_{avg}(C_i,C_j)=\frac{1}{n_in_j}\sum_{p\in{C_i},p'\in{C_j}}\{|p-p'|\} distavg(Ci,Cj)=ninj1pCi,pCj{pp}

DIANA

采用自顶向下的分拆策略来产生层次结构

Birch

BIRCH使用 聚类特征(CF) 来概括一个簇,使用聚类特征树(CF树)来表示聚类的层次结构。聚类特征本质上是给定簇的统计汇总:从统计学的观点来看,它是簇的零阶矩、一阶矩和二阶矩。聚类特征满足可加性。
BIRCH聚类算法原理

优缺点

优点
  1. 节约内存,所有的样本都在磁盘上,CF Tree仅仅存了CF节点和对应的指针。
  2. 聚类速度快,只需要一遍扫描训练集就可以建立CF Tree,CF Tree的增删改都很快。
  3. 可以识别噪音点,还可以对数据集进行初步分类的预处理
缺点
  1. 由于CF Tree对每个节点的CF个数有限制,导致聚类的结果可能和真实的类别分布不同.
  2. 对高维特征的数据聚类效果不好。此时可以选择Mini Batch K-Means
  3. 如果数据集的分布簇不是类似于超球体,或者说不是凸的,则聚类效果不好。

其他聚类

谱聚类

算法

  1. 计算两两样本之间的相似度,用相似度构造邻接矩阵 W W W
  2. W W W的矩阵的每一列加起来得到 N N N个数,构造一个 N ∗ N N*N NN的对角矩阵 D D D(度矩阵),计算拉普拉斯矩阵 L = D − W L=D-W L=DW
  3. 求出 L L L的前 k k k小的特征值对应的 k k k个特征向量 { v } i = 1 k \{\bm{v}\}_{i=1}^{k} {v}i=1k
  4. $k$个特征列向量排列在一起组成一个 N ∗ k N*k Nk的矩阵,其中每一行可以看做原先的样本降维到 k k k维空间的向量
  5. 使用Kmeans算法(Kmeans的 K K K与步骤3里的 k k k没关系)进行聚类,用降维后的向量代替原先的样本

优缺点

  1. 对离群点不敏感
  2. kmeans适合凸数据, 而谱聚类则比较通用

问题

为什么是 L L L k k k小的特征向量

L L L k k k小等价于 W W W k k k大,本质上也是保留特征矩阵 W W W的前 k k k大,而且 L L L k k k小的特征向量的组成的矩阵是使目标函数最小的解

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值