统计分析之聚类分析

简介

聚类分析,是一种将随机现象归类的统计学分析方法,在不知道应分为多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。在生物医学之中,聚类分析已成为发掘海量信息(包括基因信息)的首选工具。聚类分析数据探索性统计分析方法,按照分类的目的可以分为R型聚类和Q型聚类。R型聚类又称为指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标,是针对变量进行的聚类分析。Q型聚类又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性,是针对样本的聚类分析。 测量n个样本的m个变量,可以进行指标聚类(R型聚类)和样品聚类(Q型聚类)。计算类间的相似系数是进行聚类分析的关键。

不同的聚类分析方法

目前存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和具体应用。聚类算法主要分为 5 大类:基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。

  1. 基于划分的聚类方法
    基于划分的聚类方法是一种自顶向下的方法,对于给定的 n 个数据对象的数据集 D,将数据对象组织成 k(k≤n) 个分区,其中,每个分区代表一个簇。基于划分的聚类方法中,最经典的就是k-平均(k-means)算法和 k-中心(k-medoids)算法,很多算法都是由这两个算法改进而来的。
  2. 基于层次的聚类方法
    基于层次的聚类方法是指对给定的数据进行层次分解,直到满足某种条件为止。该算法根据层次分解的顺序分为自底向上法和自顶向下法,即凝聚式层次聚类算法和分裂式层次聚类算法。
  3. 基于密度的聚类方法
    基于密度的聚类方法的主要目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的簇。
  4. 基于网格的聚类方法
    基于网格的聚类方法将空间量化为有限数目的单元,可以形成一个网格结构,所有聚类都在网格上进行。基本思想就是将每个属性的可能值分割成许多相邻的区间,并创建网格单元的集合。
  5. 基于模型的聚类方法
    基于模型的聚类方法是试图优化给定的数据和某些数学模型之间的适应性的。该方法给每一个簇假定了一个模型,然后寻找数据对给定模型的最佳拟合。假定的模型可能是代表数据对象在空间分布情况的密度函数或者其他函数。这种方法的基本原理就是假定目标数据集是由一系列潜在的概率分布所决定的。
    文中部分内容参考CSDN博主「QYUooYUQ」的文章,原文链接:https://blog.csdn.net/dsdaasaaa/article/details/94590153
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值