层次聚类算法(hierarchial cluster)

层次聚类算法分为Agglomerative(自底向上)和Divisive(自顶向下)两种,其中Agglomerative是常用的方法。它通过合并最近的点或cluster逐步构建层次结构。在Agglomerative层次聚类中,每个对象开始时是一个独立的cluster,然后每次迭代选择最近的两个cluster进行合并,直到所有对象属于一个cluster。这一过程涉及距离矩阵的更新,以决定哪些cluster应该合并。层次聚类算法是贪心策略,每次决策都是局部最优。
摘要由CSDN通过智能技术生成

聚类算法

常见的聚类算法可以分为四类:

  • 基于连通模型(connectivited-based):如层次聚类,按照对象之间的距离聚类。(距离的定义可以有很多种)。
  • 基于中心点(centroid-based):如K-means,每个cluster都维持有一个中心点。
  • 基于分布模型(distribution-based):如高斯混合模型(GMM),假设数据集中的点是由一种混合的概率模型采样所得,将多有可能同属于一组分布的点聚在一起。
  • 基于密度(density-based),如DBSCAN和OPTICS,密度高的区域被分为一个cluster,不同cluster由密度低的区域分割开,低密度处的样本被视为噪音

层次聚类(hierarchial cluster)

层次聚类方法可以分为两类:

  • Agglomerative层次聚类(自底向上,bottom-up聚类):
    每一个对象都是一个cluster,选最近的cluster合并,最终所有的对象都属一一个cluster
  • Divisive层次聚类(自顶向下,top-botttom聚类);
    所有的对象都属一一个cluster,按一定规则将cluster划分,最终每一个对象都是一个cluster
    层次聚类示意图

层次聚类算法是一种贪心算法(greedy algorithm),每一次执行都是某种程度上的局部最优

Agglomerative层次聚类方法

如存在距离矩阵D(距离可以通过不同度量方式得到)
1 2 3 4 5 D 1 = 1 2 3 4 5 [ 0.0 2.0 0.0 6.0 5.0 0.0 10.0 9.0 4.0 0.0 9.0 8.0 5.0 3.0 0.0 ] \qquad\qquad\quad\begin{matrix} 1&\quad 2&\quad 3 &\quad 4&\quad 5 \end{matrix} \\ D_1= \begin{matrix} 1\\2\\3\\4\\5 \end{matrix} \begin{bmatrix} 0.0 & \\ 2.0 &0.0 \\ 6.0 &5.0 &0.0 \\ 10.0 &9.0 &4.0 &0.0 &\\ 9.0 &8.0 &5.0 &3.0 &0.0 &\\ \end{bmatrix} 12345D1=123450.02.06.010.09.00.05.09.08.00.04.05.00.03.00.0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值