数据聚类算法 --《大数据时代的算法》学习笔记

本文介绍了数据聚类分析的重要性及其无监督学习特性,详细讲解了自上而下和自下而上的聚类方法。重点讨论了系统聚类法,包括最短距离法、最长距离法、中间距离法、重心法、类平均距离法和离差平方和法,并解释了各种方法在处理不同类型数据时的特点和适用场景。
摘要由CSDN通过智能技术生成

聚类分析

聚类分析是机器学习算法中同数据分类算法同样重要的算法,数据聚类分析是一种无监督的学习方法。聚类和分类不同的是,它不需要通过语料库训练,更不需要早期的人工标注类型,具备较高的灵活性和极高的自动化处理能力。
数据聚类算法可以划分为结构性或者分散性两种算法类型,是算法实现的不同方式;从计算方式而言,可拆分为自上而下和自下而上两种计算方式

  1. 自上而下的分析方法:首先把所有样本视为一个聚类,然后不断地从这个大的聚类中分离初更多小聚类,直到不能再继续分离为止。
  2. 自下而上的分析方法: 将局部样本自成一聚类,然后通过不断地两两之间合并,最终形成几个大的聚类。

基于系统聚类法

系统聚类(systematic cluster method)又称作层次聚类,系统聚类的方法是通过计算将聚类较近的样本聚成一类,距离较远的样本后聚成一类,通过不断计算样本之间距离,最终每个样本都能找到合适的聚簇。
按聚类的过程分析,可以将聚类划分为系统聚类、逐步聚类法、有序样品聚类法、模糊聚类法以及分隔聚类法等。

  1. 系统聚类法: 主要用于对小数据量的样本间聚类及对指标聚类
  2. 逐步聚类法:也称快速聚类法,主要用于对大数据样本之间的聚类。它首先定义样本聚簇的中心点,这些初始中心点可以随机产生也可以通过一定规则产生。把其他样本数据与初始化的中心点进行距离计算,离样本数据越近的中心点,则该样本数据属于该中心点所在的聚簇,然后通过聚簇内的距离计算更新当前聚簇的中心点,不断迭代上述过程直到聚簇中心不再改变。
  3. 有序样品聚簇法: 用于对有序的数据样本进行聚类,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值