聚类分析

聚类分析是无监督学习的一种,旨在探索数据内在的自然分组结构。通过K-Means、层次方法(如AGNES和DIANA)、DBSCAN等算法,寻找数据中的簇,使得同一簇内的对象相似,不同簇间对象差异大。广泛应用在市场分析、生物种群研究等领域,并可作为数据预处理步骤,提高后续分析效率。
摘要由CSDN通过智能技术生成

根据邵俊明老师的课件整理而成


聚类分析(Cluster Analysis)

  • 聚类

    将数据分为多个簇(Clusters),使得在同一个簇内对象之间具有较高的相似度,而不同簇之间的对象差别较大

  • 探索数据内部潜在的自然分组结构

  • 无监督学习(无类别信号)

聚类分析的作用

  • 聚类分析是获得数据内部结构的有效方法
    • 通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析
    • 这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分、城市规划等方面具有广阔的应用前景
  • 聚类分析可以作为其它算法的预处理步骤
    • 利用聚类进行数据预处理,可以获得数据的基本概况
    • 在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率
    • 也可将聚类结果用于进一步关联分析,以获得进一步的有用信息
  • 聚类分析可以完成噪声点/孤立点的挖掘
    • 许多数据挖掘算法试图使孤立点影响最小化,或者排除它们
    • 孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为的存在
    • 许多聚类分析算法都具有噪声点检测的功能

聚类分析的目的

寻找数据中潜在的自然分组结构 (a structure of “natural” grouping)

  • 聚类分析努力使得数据簇满足下面两个条件
    • 一个簇内的数据尽量相似(high intra-class similarity)
    • 不同簇的数据尽量不相似(low inter-class similarity)

聚类算法

按照聚类的基本思想可主要分为4种方法

划分方法 (partitioning method)

  • 给定一个有n个对象的数据集,它将数据划分为k个簇&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值